当前位置: 网站首页 >AI教程资讯 >正文

MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

来源:爱论文 时间:2025-05-17 09:54:47

MT-Color是什么

MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。MT-Color构建了GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。MT-Color在色彩准确性和视觉质量上优于现有方法,生成的图像更符合人类视觉感知。

MT-Color的主要功能

精确的实例级着色:根据用户提供的实例掩码和文本描述,对图像中的不同对象进行精确着色,确保每个对象的颜色与其描述一致。防止色彩溢出:基于像素级掩码注意力机制,有效避免色彩在不同对象之间的错误扩散,保持颜色的边界清晰。高质量的色彩生成:生成的彩色图像色彩丰富、自然,且分辨率高(512×512),细节更清晰。灵活的用户控制:支持用户用文本描述和掩码对图像着色过程进行精细控制,满足不同的着色需求。数据集支持:构建专门的GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。

MT-Color的技术原理

像素级掩码注意力机制:将ControlNet提取的灰度图像特征与Stable Diffusion的潜在特征通过像素级交叉注意力机制对齐,防止不同实例间的像素信息交换,缓解色彩溢出问题。用分割掩码构建交叉注意力掩码,确保像素信息在不同实例间不会相互干扰。实例掩码和文本引导模块:提取每个实例的掩码和文本表示,与潜在特征基于自注意力机制融合,基于实例掩码形成自注意力掩码,防止实例文本引导其他区域的着色,减少色彩绑定错误。多实例采样策略:在采样过程中,对每个实例区域分别进行采样,将结果融合,进一步增强实例感知的着色效果。GPT-Color数据集:基于预训练的视觉语言模型(如GPT-4和BLIP-2)在现有的图像数据集上自动生成高质量的实例级注释,包括细粒度的文本描述和对应的分割掩码,为模型训练提供丰富的训练数据。

MT-Color的项目地址

arXiv技术论文:https://arxiv.org/pdf/2505.08705

MT-Color的应用场景

历史照片修复:为黑白历史照片添加生动色彩,增强观赏性和历史感。影视后期制作:修复和增强黑白或低质量彩色镜头,提升视觉效果。艺术创作:帮助艺术家为黑白草图或插画添加色彩,实现创意。医学图像处理:为医学图像添加色彩,提高诊断价值。教育领域:为教学材料中的黑白图像添加色彩,增强学习体验。
上一篇:Speech-02 – MiniMax 推出的新一代文本转语音模型
相关资讯 更多+
  • MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架
    MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

    MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。

    AI教程资讯 2023-04-14

  • Speech-02 – MiniMax 推出的新一代文本转语音模型
    Speech-02 – MiniMax 推出的新一代文本转语音模型

    Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。

    AI教程资讯 2023-04-14

  • Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型
    Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

    Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3 41亿,生成速度更快,能在移动设备上快速生成音频,如鼓点循环、音效等。

    AI教程资讯 2023-04-14

  • LBM – AI图像转换框架,实现可控阴影生成
    LBM – AI图像转换框架,实现可控阴影生成

    LBM(Latent Bridge Matching)是Jasper Research团队推出的新型图像到图像转换框架,基于在潜在空间中构建桥匹配实现快速高效的图像转换。LBM仅需单步推理完成任务,适用多种图像转换场景,如目标移除、重打光、深度和法线估计等。

    AI教程资讯 2023-04-14

最新录入 更多+
确定