当前位置: 网站首页 >AI教程资讯 >正文

SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

来源:爱论文 时间:2025-04-27 09:31:51

SimpleAR是什么

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。训练采用“预训练 – 有监督微调 – 强化学习”的三阶段方法,显著提升了文本跟随能力和生成效果。SimpleAR 兼容现有加速技术,推理时间可缩短至 14 秒以内。

SimpleAR的主要功能

高质量文本到图像生成:SimpleAR 是纯自回归的视觉生成框架,仅用 5 亿参数就能生成 1024×1024 分辨率的高质量图像,在 GenEval 等基准测试中取得了 0.59 的优异成绩。多模态融合生成:将文本和视觉 token 平等对待,集成在一个统一的 Transformer 架构中,支持多模态建模,能更好地进行文本引导的图像生成。

SimpleAR的技术原理

自回归生成机制:SimpleAR 采用经典的自回归生成方式,通过“下一个 token 预测”的形式逐步生成图像内容。这种机制将图像分解为一系列离散的 token,然后逐个预测这些 token,从而构建出完整的图像。多模态融合:SimpleAR 将文本编码和视觉生成集成在一个 decoder-only 的 Transformer 架构中。提高了参数的利用效率,更好地支持了文本和视觉模态之间的联合建模,使模型能更自然地理解和生成与文本描述对应的图像。三阶段训练方法:预训练:通过大规模数据预训练,学习通用的视觉和语言模式。有监督微调(SFT):在预训练基础上,通过有监督学习进一步提升生成质量和指令跟随能力。强化学习(GRPO):基于简单的 reward 函数(如 CLIP)进行后训练,优化生成内容的美学性和多模态对齐。推理加速技术:SimpleAR 通过 vLLM 等技术优化推理过程,显著缩短了图像生成时间。例如,0.5B 参数的模型可以在 14 秒内生成 1024×1024 分辨率的高质量图像。视觉 tokenizer 的选择:SimpleAR 使用 Cosmos 作为视觉 tokenizer,在低分辨率图像和细节重建上存在局限,仍有改进空间。

SimpleAR的项目地址

Github仓库:https://github.com/wdrink/SimpleARHuggingFace模型库:https://huggingface.co/papers/2504.11455arXiv技术论文:https://arxiv.org/pdf/2504.11455

SimpleAR的应用场景

创意设计:SimpleAR 可以帮助设计师快速生成高质量的图像,用于广告设计、海报制作、艺术创作等。虚拟场景构建:通过文本描述生成虚拟场景,为游戏开发、虚拟现实(VR)和增强现实(AR)应用提供素材。多模态机器翻译:SimpleAR 的多模态融合能力可以用于将图像信息与文本翻译相结合,提升翻译的准确性和丰富性。视频描述生成:通过将图像生成与视频内容相结合,为视频生成详细的描述文本。增强现实(AR)与虚拟现实(VR):SimpleAR 可以生成与现实场景高度融合的虚拟图像,用于工业维修、教育演示、旅游导览等场景。为虚拟现实应用生成高质量的虚拟环境和物体,提升用户体验。图像增强与修复:SimpleAR 可以用于增强低分辨率图像的细节,提升图像质量。通过生成缺失或损坏部分的图像内容,实现图像的修复。
上一篇:Aether – 上海 AI Lab 开源的生成式世界模型
相关资讯 更多+
  • SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型
    SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

    SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。

    AI教程资讯 2023-04-14

  • Aether – 上海 AI Lab 开源的生成式世界模型
    Aether – 上海 AI Lab 开源的生成式世界模型

    Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。

    AI教程资讯 2023-04-14

  • Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型
    Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型

    Infinite Mobility 是上海AI Lab推出的可交互物体生成模型,基于程序化生成技术,高效生成高质量的可交互物体数据资产。Infinite Mobility支持22类常见可交互物体的生成,单个物体生成仅需约1秒,且生成数量无上限。

    AI教程资讯 2023-04-14

  • ChatTS-14B – 字节开源的时间序列理解和推理大模型
    ChatTS-14B – 字节开源的时间序列理解和推理大模型

    ChatTS-14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型,参数量达 140 亿。基于 Qwen2 5-14B-Instruct 微调而成,通过合成数据对齐技术显著提升了在时间序列任务中的表现。

    AI教程资讯 2023-04-14

最新录入 更多+
确定