MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架-爱论文

MT-Color是什么

MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架，基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出，用实例掩码和文本引导模块解决色彩绑定错误问题，用多实例采样策略增强实例感知效果。MT-Color构建了GPT-Color数据集，提供高质量的实例级注释，支持更精细的图像着色任务。MT-Color在色彩准确性和视觉质量上优于现有方法，生成的图像更符合人类视觉感知。

MT-Color的主要功能

精确的实例级着色：根据用户提供的实例掩码和文本描述，对图像中的不同对象进行精确着色，确保每个对象的颜色与其描述一致。防止色彩溢出：基于像素级掩码注意力机制，有效避免色彩在不同对象之间的错误扩散，保持颜色的边界清晰。高质量的色彩生成：生成的彩色图像色彩丰富、自然，且分辨率高（512×512），细节更清晰。灵活的用户控制：支持用户用文本描述和掩码对图像着色过程进行精细控制，满足不同的着色需求。数据集支持：构建专门的GPT-Color数据集，提供高质量的实例级注释，支持更精细的图像着色任务。

MT-Color的技术原理

像素级掩码注意力机制：将ControlNet提取的灰度图像特征与Stable Diffusion的潜在特征通过像素级交叉注意力机制对齐，防止不同实例间的像素信息交换，缓解色彩溢出问题。用分割掩码构建交叉注意力掩码，确保像素信息在不同实例间不会相互干扰。实例掩码和文本引导模块：提取每个实例的掩码和文本表示，与潜在特征基于自注意力机制融合，基于实例掩码形成自注意力掩码，防止实例文本引导其他区域的着色，减少色彩绑定错误。多实例采样策略：在采样过程中，对每个实例区域分别进行采样，将结果融合，进一步增强实例感知的着色效果。GPT-Color数据集：基于预训练的视觉语言模型（如GPT-4和BLIP-2）在现有的图像数据集上自动生成高质量的实例级注释，包括细粒度的文本描述和对应的分割掩码，为模型训练提供丰富的训练数据。