MUMU是什么
MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据,通过分两个阶段的训练过程,MUMU能更好地保留条件图像的细节,并在风格转换和角色一致性等任务上展现出泛化能力。

来源:爱论文 时间:2025-05-02 09:15:10
MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据,通过分两个阶段的训练过程,MUMU能更好地保留条件图像的细节,并在风格转换和角色一致性等任务上展现出泛化能力。
MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。
AI教程资讯
2023-04-14
LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视觉任务。LLaVA-OneVision支持跨模态 场景的迁移学习,特别在图像到视频的任务转移中表现出色,具有强大的视频理解和跨场景能力。
AI教程资讯
2023-04-14
HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数据,从而增强模型的专业化程度。
AI教程资讯
2023-04-14
CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模块,实现了无需额外视频,通过少量图像学习,就能生成所需的视频。
AI教程资讯
2023-04-14