SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架-爱论文

SANA 1.5是什么

SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器（Linear Diffusion Transformer），用于文本到图像生成任务。在 SANA 1.0 的基础上进行了改进，提出了三大创新点：高效的训练扩展，通过深度增长范式，将模型从 16 亿参数扩展到 48 亿参数，显著减少计算资源，结合了高效的 8 位优化器。模型深度剪枝，通过分析块重要性，对模型进行高效压缩，能在不同计算预算下灵活调整模型大小。推理时扩展，通过重复采样和基于视觉语言模型（VLM）的选择机制，使小模型在推理时能达到大模型的质量。

SANA 1.5的主要功能

高效训练扩展：SANA 1.5 采用深度增长范式，能将模型从 16 亿参数扩展到 48 亿参数，显著减少计算资源。模型深度剪枝：SANA 1.5 引入了基于块重要性分析的模型压缩技术，能将大型模型高效地压缩到任意大小，最小化质量损失。通过分析扩散变换器中输入输出的相似性模式，剪枝不重要的块，通过微调快速恢复模型质量。推理时扩展：SANA 1.5 提出了推理时扩展策略，通过重复采样和基于视觉语言模型（VLM）的选择机制，使小型模型在推理时能达到大型模型的质量。多语言支持：SANA 1.5支持多语言文本输入，包括中文、英文和表情符号，适用全球化的内容创作和本地化设计。开源与社区支持：SANA 1.5的代码和预训练模型已经开源，研究人员和开发者可以进行定制和扩展，进一步推动其在学术研究和工业应用中的普及。推理效率：通过CAME-8bit优化器，SANA 1.5能在单个消费级GPU上进行大规模模型微调，使高质量图像生成更加高效和可访问。

SANA 1.5的性能测试

模型增长（Model Growth）：SANA 1.5通过模型增长策略，从16亿参数扩展到48亿参数，GenEval分数从0.66提高到0.72，接近行业领先的Playground v3（24亿参数）的0.76，但推理延迟降低了5.5倍。模型剪枝（Model Pruning）：通过深度剪枝，SANA 1.5能在不同计算预算下灵活调整模型大小。例如，将48亿参数模型剪枝到16亿参数后，经过100步微调，GenEval分数达到0.672，超过了SANA 1.0 16亿参数模型的0.664。推理时扩展（Inference Scaling）：通过生成多个样本并基于VLM选择最佳样本，SANA 1.5的GenEval分数从0.72提高到0.80，超过了Playground v3的0.76。

SANA 1.5的项目地址

arXiv技术论文：https://arxiv.org/pdf/2501.18427

SANA 1.5的应用场景

创意设计：SANA 1.5 能根据文本提示生成高质量的图像，适用于创意设计领域，如广告设计、插画创作、游戏美术等。教学辅助：教师可以用 SANA 1.5 生成与课程相关的图像，帮助学生更好地理解抽象概念。影视制作：在影视制作中，SANA 1.5 可以生成概念艺术、场景设计图等，帮助导演和美术指导快速构思和验证创意。工程设计：工程师可以用 SANA 1.5 生成工程设计的视觉效果图，帮助团队更好地理解设计意图和优化设计方案。移动应用：通过模型深度剪枝和推理时扩展，SANA 1.5 可以在移动设备上高效运行，为移动应用提供实时图像生成功能。内容审核：结合安全检查模型（如 ShieldGemma-2B），SANA 1.5 可以在生成图像前对用户输入的文本进行审核，确保生成的内容符合安全标准，避免生成不当内容。