DreamO – 字节联合北大推出的图像定制生成框架-爱论文

DreamO是什么

DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架，基于预训练的扩散变换器（DiT）模型实现多种图像生成任务的灵活定制。DreamO 支持身份、主体、风格、背景等多种条件的无缝集成，基于特征路由约束和占位符策略提升生成结果的一致性和条件解耦能力。DreamO 用分阶段训练策略，确保模型在复杂任务中高效收敛保持高质量生成。框架广泛适用虚拟试穿、风格迁移、主体驱动生成等场景，为图像生成提供强大的定制化能力。

DreamO的主要功能

多条件集成：支持身份（Identity）、主体（Subject）、风格（Style）、背景等多种条件的定制，将条件无缝集成到图像生成中。高质量生成：基于分阶段训练策略，确保生成图像的高质量，纠正低质量数据引入的偏差灵活的条件控制：支持用户精确控制条件在生成图像中的位置和布局。广泛的适用性：支持处理复杂的多条件场景，适用于虚拟试穿、风格迁移、主体驱动生成等多种图像生成任务。

DreamO的技术原理

扩散变换器（DiT）框架：用扩散变换器作为核心架构，基于统一处理不同类型输入（如文本、图像、条件等）实现图像定制。扩散模型基于逐步去除噪声生成图像，变换器架构提升模型对输入条件的理解和处理能力。特征路由约束：为提高生成结果与参考图像的一致性，引入特征路由约束。约束基于优化条件图像与生成图像之间的注意力机制，确保生成图像的特定区域与条件图像对应，避免条件之间的耦合。占位符策略：基于在文本描述中添加占位符（如 [ref#1]），将条件图像与文本描述中的特定对象关联起来，实现对生成图像中条件位置的精确控制。分阶段训练策略：基于分阶段训练方法，包括初始阶段（简单任务）、全面训练阶段（多任务）和质量对齐阶段（纠正偏差）。有助于模型在复杂数据分布下顺利收敛，保持高质量生成。大规模训练数据：为实现广泛的泛化能力，构建涵盖多种任务（如身份定制、主体驱动、虚拟试穿、风格迁移等）的大规模训练数据集，确保模型能够学习到不同条件下的生成能力。

DreamO的项目地址

项目官网：https://mc-e.github.io/project/DreamO/GitHub仓库：https://github.com/bytedance/DreamOarXiv技术论文：https://arxiv.org/pdf/2504.16915

DreamO的应用场景

虚拟试穿：用户上传自己的照片和服装图片，生成试穿效果。风格迁移：将普通照片转换为艺术风格图像，或根据设计草图生成不同风格的视觉效果，适用于艺术创作和设计灵感探索。主体驱动生成：根据用户上传的照片生成个性化头像或虚拟角色，支持多主体融合，用在社交媒体、游戏和动画制作。身份定制：生成包含特定人物形象的图像，支持身份特征的保留和融合，适用于虚拟社交和个性化内容创作。创意内容生成：根据文本描述和条件图像生成创意广告、影视特效或教育场景图像，支持多种复杂定制任务，满足创意需求。