DreamO是什么
DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制。DreamO 支持身份、主体、风格、背景等多种条件的无缝集成,基于特征路由约束和占位符策略提升生成结果的一致性和条件解耦能力。DreamO 用分阶段训练策略,确保模型在复杂任务中高效收敛保持高质量生成。框架广泛适用虚拟试穿、风格迁移、主体驱动生成等场景,为图像生成提供强大的定制化能力。

来源:爱论文 时间:2025-05-15 09:28:30
DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制。DreamO 支持身份、主体、风格、背景等多种条件的无缝集成,基于特征路由约束和占位符策略提升生成结果的一致性和条件解耦能力。DreamO 用分阶段训练策略,确保模型在复杂任务中高效收敛保持高质量生成。框架广泛适用虚拟试穿、风格迁移、主体驱动生成等场景,为图像生成提供强大的定制化能力。
DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制。
AI教程资讯
2023-04-14
ChatDLM是 Qafind Labs推出的全球最快扩散语言模型,核心定位是突破传统Transformer架构在长上下文处理与推理效率上的瓶颈。模型融合了“区块扩散(Block Diffusion)”与“专家混合(MoE)”技术,拥有7B的参数量,推理速度高达2800 tokens s,支持131,072 tokens的超大上下文窗口。
AI教程资讯
2023-04-14
Spatial-RAG(Spatial Retrieval-Augmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型(LLMs)空间推理能力的框架。结合稀疏空间检索(基于空间数据库的结构化查询)和密集语义检索(基于LLM的语义相似性匹配),解决LLMs在空间数据处理和推理方面的不足。
AI教程资讯
2023-04-14
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题。非思考模式模型提供快速、近乎即时的响应,适用于简单问题。
AI教程资讯
2023-04-14