ResAdapter – 字节推出的扩散模型分辨率适配器-爱论文

ResAdapter是什么

ResAdapter是由字节跳动的研究人员推出的一种为扩散模型（如Stable Diffusion）设计的分辨率适配器，允许这些图像生成模型生成具有任意分辨率和宽高比的图像，同时保持其原始的风格域。由于扩散模型通常在训练时只学习到特定分辨率的图像生成能力，因此当用户尝试生成超出训练分辨率范围的图像时，可能无法生成高质量的结果（如画面崩坏、肢体异常等）。ResAdapter的目的便旨在解决该问题，它能够在不改变模型原始风格域的前提下，扩展模型生成图像的分辨率范围和比例。

ResAdapter的官网入口

官方项目主页：https://res-adapter.github.io/GitHub代码库：https://github.com/bytedance/res-adapterHugging Face模型：https://huggingface.co/jiaxiangc/res-adapterarXiv研究论文：https://arxiv.org/abs/2403.02084

ResAdapter的功能特性

分辨率插值（Resolution Interpolation）：允许模型生成低于其训练分辨率的图像，可以生成更小尺寸的图像，同时保持细节和质量。分辨率外推（Resolution Extrapolation）：使模型能够生成高于其训练分辨率的图像。这对于需要高分辨率输出的应用场景非常重要，如打印、大尺寸显示等。域一致性（Domain Consistency）：在生成不同分辨率的图像时，ResAdapter确保图像的风格与训练时的风格域保持一致，避免了在改变分辨率时可能出现的风格失真或不一致。即插即用（Plug-and-Play）：ResAdapter设计为可以轻松集成到现有的扩散模型中，无需对模型架构进行重大修改，快速应用于多种不同的模型和应用场景。兼容性：ResAdapter不仅与基础的扩散模型兼容，还可以与其他图像生成相关的模块（如ControlNet、IP-Adapter和LCM-LoRA）结合使用，以实现更复杂的图像生成任务。

ResAdapter的工作原理

分析模型结构：首先，分析扩散模型（如Stable Diffusion）的UNet架构，确定哪些层对分辨率敏感。通常，卷积层对分辨率敏感，因为它们的感受野（Receptive Field）是固定的。插入ResCLoRA：在UNet架构的下采样器（Downsampler）和上采样器（Upsampler）的卷积层中插入分辨率卷积LoRA（ResCLoRA）。ResCLoRA通过添加低秩矩阵来动态调整卷积层的感受野，使其能够适应不同分辨率的输入图像。引入ResENorm：为了解决分辨率外推问题，引入分辨率外推归一化（ResENorm）。ResENorm仅对UNet块中的组归一化层进行训练，以适应高分辨率图像的统计分布，同时保持模型对原始风格域的适应性。多分辨率训练：在训练过程中，使用不同分辨率的图像数据集进行训练。这种混合分辨率训练策略允许ResAdapter学习到在不同分辨率下生成图像的能力，同时避免对原始风格域的影响。集成到扩散模型：训练完成后，ResAdapter作为一个即插即用（Plug-and-Play）的模块，可以被集成到任意风格的扩散模型中。这意味着，无论原始模型是专注于何种风格域，ResAdapter都能够扩展其生成图像的分辨率范围。生成图像：在推理阶段，集成了ResAdapter的扩散模型能够根据用户的需求生成任意分辨率的图像。模型会根据输入的文本提示或条件（如ControlNet提供的图像条件），通过迭代的去噪过程生成高质量的图像。