当前位置: 网站首页 >AI教程资讯 >正文

SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架

来源:爱论文 时间:2025-03-22 13:11:51

SANA 1.5是什么

SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SANA 1.0 的基础上进行了改进,提出了三大创新点:高效的训练扩展,通过深度增长范式,将模型从 16 亿参数扩展到 48 亿参数,显著减少计算资源,结合了高效的 8 位优化器。模型深度剪枝,通过分析块重要性,对模型进行高效压缩,能在不同计算预算下灵活调整模型大小。推理时扩展,通过重复采样和基于视觉语言模型(VLM)的选择机制,使小模型在推理时能达到大模型的质量。

SANA 1.5

SANA 1.5的主要功能

高效训练扩展:SANA 1.5 采用深度增长范式,能将模型从 16 亿参数扩展到 48 亿参数,显著减少计算资源。模型深度剪枝:SANA 1.5 引入了基于块重要性分析的模型压缩技术,能将大型模型高效地压缩到任意大小,最小化质量损失。通过分析扩散变换器中输入输出的相似性模式,剪枝不重要的块,通过微调快速恢复模型质量。推理时扩展:SANA 1.5 提出了推理时扩展策略,通过重复采样和基于视觉语言模型(VLM)的选择机制,使小型模型在推理时能达到大型模型的质量。多语言支持:SANA 1.5支持多语言文本输入,包括中文、英文和表情符号,适用全球化的内容创作和本地化设计。开源与社区支持:SANA 1.5的代码和预训练模型已经开源,研究人员和开发者可以进行定制和扩展,进一步推动其在学术研究和工业应用中的普及。推理效率:通过CAME-8bit优化器,SANA 1.5能在单个消费级GPU上进行大规模模型微调,使高质量图像生成更加高效和可访问。

SANA 1.5的性能测试

模型增长(Model Growth):SANA 1.5通过模型增长策略,从16亿参数扩展到48亿参数,GenEval分数从0.66提高到0.72,接近行业领先的Playground v3(24亿参数)的0.76,但推理延迟降低了5.5倍。模型剪枝(Model Pruning):通过深度剪枝,SANA 1.5能在不同计算预算下灵活调整模型大小。例如,将48亿参数模型剪枝到16亿参数后,经过100步微调,GenEval分数达到0.672,超过了SANA 1.0 16亿参数模型的0.664。推理时扩展(Inference Scaling):通过生成多个样本并基于VLM选择最佳样本,SANA 1.5的GenEval分数从0.72提高到0.80,超过了Playground v3的0.76。

SANA 1.5的项目地址

arXiv技术论文:https://arxiv.org/pdf/2501.18427

SANA 1.5的应用场景

创意设计:SANA 1.5 能根据文本提示生成高质量的图像,适用于创意设计领域,如广告设计、插画创作、游戏美术等。教学辅助:教师可以用 SANA 1.5 生成与课程相关的图像,帮助学生更好地理解抽象概念。影视制作:在影视制作中,SANA 1.5 可以生成概念艺术、场景设计图等,帮助导演和美术指导快速构思和验证创意。工程设计:工程师可以用 SANA 1.5 生成工程设计的视觉效果图,帮助团队更好地理解设计意图和优化设计方案。移动应用:通过模型深度剪枝和推理时扩展,SANA 1.5 可以在移动设备上高效运行,为移动应用提供实时图像生成功能。内容审核:结合安全检查模型(如 ShieldGemma-2B),SANA 1.5 可以在生成图像前对用户输入的文本进行审核,确保生成的内容符合安全标准,避免生成不当内容。
上一篇:ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架
相关资讯 更多+
  • SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架
    SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架

    SANA 1 5 是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SANA 1 0 的基础上进行了改进,提出了三大创新点

    AI教程资讯 2023-04-14

  • ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架
    ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

    ASAP(Aligning Simulation and Real Physics)是卡内基梅隆大学和英伟达联合推出的,用在解决仿人机器人模拟与现实动力学不匹配问题的两阶段框架。ASAP基于预训练阶段在模拟环境中学习运动跟踪策略,用人类运动数据生成目标动作。

    AI教程资讯 2023-04-14

  • MAETok – 港大联合北大等机构推出的自动编码器
    MAETok – 港大联合北大等机构推出的自动编码器

    MAETok(Masked Autoencoders Tokenizer)是卡内基梅隆大学、香港大学、北京大学等机构推出的用在扩散模型的新型图像标记化方法。MAETok基于掩码建模(Mask Modeling)训练自编码器(AE),在编码器中随机掩盖部分图像标记,用解码器重建标记的特征,学习到更具区分性的语义丰富潜在空间。

    AI教程资讯 2023-04-14

  • Eino – 字节跳动开源的大模型应用开发框架
    Eino – 字节跳动开源的大模型应用开发框架

    Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。

    AI教程资讯 2023-04-14

最新录入 更多+
确定