当前位置: 网站首页 >AI教程资讯 >正文

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

来源:爱论文 时间:2025-05-13 13:47:52

D-DiT是什么

D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。

D-DiT的主要功能

文本到图像生成:根据输入的文本描述生成高质量的图像。图像到文本生成:根据输入的图像生成描述性文本,如图像描述、标题或视觉问答的答案。视觉问答:结合图像和问题文本,生成准确的答案。多模态理解:支持多种视觉语言任务,如图像描述、视觉指令理解和长文本生成。双向生成能力:同时支持从文本到图像和从图像到文本的生成任务,具有高度的灵活性。

D-DiT的技术原理

双分支扩散模型:D-DiT结合连续图像扩散(Continuous Image Diffusion)和离散文本扩散(Discrete Text Diffusion)。连续图像扩散用流匹配(Flow Matching)技术,用逆向扩散过程生成图像。离散文本扩散用掩码扩散(Masked Diffusion)技术,逐步去噪生成文本。多模态Transformer架构:图像分支:处理图像数据,输出图像的扩散目标。文本分支:处理文本数据,输出文本的扩散目标。联合训练目标:基于一个联合扩散目标同时训练图像和文本模态,图像扩散损失基于流匹配损失,优化图像生成的逆向扩散过程。文本扩散损失基于掩码扩散损失,优化文本生成的逆向扩散过程。基于联合训练,模型能学习图像和文本之间的联合分布。双向注意力机制:D-DiT用双向注意力机制,支持模型在图像和文本之间灵活切换,支持无序处理输入模态。让模型在生成过程中充分利用图像和文本的信息,提升多模态任务的性能。

D-DiT的项目地址

项目官网:https://zijieli-jlee.github.io/dualdiff.github.io/GitHub仓库:https://github.com/zijieli-Jlee/Dual-DiffusionarXiv技术论文:https://arxiv.org/pdf/2501.00289

D-DiT的应用场景

文本到图像生成:根据文本描述生成高质量图像,适用创意设计、游戏开发、广告制作和教育领域。图像到文本生成:为图像生成描述性文本,辅助视障人士、内容推荐、智能相册等。视觉问答:结合图像和问题生成准确答案,用在智能助手、教育工具和客服支持。多模态对话系统:在对话中结合图像生成详细回答,适用智能客服、虚拟助手和教育辅导。图像编辑与增强:根据文本描述修复、转换或增强图像,用在图像修复、风格转换和图像增强。
上一篇:Granite 4.0 Tiny Preview – IBM推出的语言模型
相关资讯 更多+
  • D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
    D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

    D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。

    AI教程资讯 2023-04-14

  • Granite 4.0 Tiny Preview – IBM推出的语言模型
    Granite 4.0 Tiny Preview – IBM推出的语言模型

    Granite 4 0 Tiny Preview 是 IBM 推出的 Granite 4 0 语言模型家族中最小的模型的预览版本。Granite 4 0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点,在消费级 GPU 上能运行多个长上下文(128K)任务,性能接近 Granite 3 3 2B Instruct,内存需求减少约 72%。

    AI教程资讯 2023-04-14

  • Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型
    Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型

    Gemini 2 5 Pro (I O 版) 是 Google 推出的 Gemini 2 5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2 5 Pro Preview 05-06。模型在编程能力上取得重大突破,擅长构建交互式 Web 应用、游戏和模拟程序。

    AI教程资讯 2023-04-14

  • VPP – 清华和星动纪元推出的首个AIGC机器人大模型
    VPP – 清华和星动纪元推出的首个AIGC机器人大模型

    VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场景生成机器人动作。VPP能提前预知未来,实现高频预测和动作执行,支持跨人形机器人本体切换,显著降低对高质量机器人真机数据的依赖。

    AI教程资讯 2023-04-14

最新录入 更多+
确定