当前位置: 网站首页 >AI教程资讯 >正文

xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架

来源:爱论文 时间:2025-03-12 11:55:44

xAR是什么

xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归模型在视觉生成中的信息密度不足和累积误差问题。

xAR

xAR的主要功能

下一个X预测(Next-X Prediction):扩展了传统的“下一个标记预测”,支持模型预测更复杂的实体(如图像块、单元、子采样、整个图像等),捕捉更丰富的语义信息。噪声上下文学习(Noisy Context Learning):通过在训练中引入噪声,提高模型对误差的鲁棒性,缓解累积误差问题。高性能生成:在 ImageNet 数据集上,xAR 模型在推理速度和生成质量上均优于现有技术,如 DiT 和其他扩散模型。灵活的预测单元:支持多种预测单元设计(如单元、子采样、多尺度预测等),适用于不同的视觉生成任务。

xAR的技术原理

流匹配(Flow Matching):xAR基于流匹配方法将离散的标记分类问题转化为连续的实体回归问题。具体来说:模型通过插值和噪声注入的方式生成带噪声的输入。在每个自回归步骤中,模型预测从噪声分布到目标分布的方向流(Velocity),从而逐步优化生成结果。 推理策略:在推理阶段,xAR采用自回归的方式逐步生成图像:首先从高斯噪声中预测初始单元(如8×8的图像块)。基于已生成的单元,模型逐步生成下一个单元,直到完成整个图像的生成。实验结果:xAR在ImageNet-256和ImageNet-512基准测试中取得了显著的性能提升:xAR-B(1.72亿参数)模型在推理速度上比DiT-XL(6.75亿参数)快20倍,同时在弗雷歇 inception 距离(FID)上达到1.72,优于现有的扩散模型和自回归模型。xAR-H(11亿参数)模型在ImageNet-256上达到了1.24的FID,创造了新的最优水平,且不依赖于视觉基础模型(如DINOv2)或高级引导区间采样。

xAR的项目地址

项目官网:https://oliverrensu.github.io/project/xAR/arXiv技术论文:https://arxiv.org/pdf/2502.20388

xAR的应用场景

艺术创作:艺术家可以用xAR生成创意图像,作为艺术作品的灵感来源或直接用于创作。xAR能生成具有丰富细节和多样风格的图像,支持不同分辨率和风格的创作需求。虚拟场景生成:在游戏开发和虚拟现实(VR)中,xAR可以快速生成逼真的虚拟场景,包括自然景观、城市环境和虚拟角色等,提升用户体验。老照片修复:通过生成高质量的图像内容,xAR可以修复老照片中的损坏部分,恢复其原始细节和色彩。视频内容生成:xAR可以生成视频中的特定场景或对象,用于视频特效制作、动画生成和视频编辑。数据增强:通过生成多样化的图像,xAR可以扩充训练数据集,提升模型的泛化能力和鲁棒性。
上一篇:Avat3r – 慕尼黑大学联合 Meta 推出的 3D 高斯头像生成模型
相关资讯 更多+
  • xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
    xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架

    xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归模型在视觉生成中的信息密度不足和累积误差问题。

    AI教程资讯 2023-04-14

  • Avat3r – 慕尼黑大学联合 Meta 推出的 3D 高斯头像生成模型
    Avat3r – 慕尼黑大学联合 Meta 推出的 3D 高斯头像生成模型

    Avat3r 是慕尼黑工业大学和 Meta Reality Labs 推出的高保真三维头部头像的大型可动画高斯重建模型,仅需几张输入图像,能生成高质量且可动画化的 3D 头部头像,降低了计算需求。模型通过大型多角度视频数据集学习强大的三维人头先验,结合 DUSt3R 的位置图和 Sapiens 的特征图,优化重建效果。

    AI教程资讯 2023-04-14

  • WhisperChain – AI实时语音转文字工具,自动对文本进行清理和优化
    WhisperChain – AI实时语音转文字工具,自动对文本进行清理和优化

    WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper cpp 实现实时语音识别,将语音转换为文本,基于 LangChain 对文本进行清理和优化,去除填充词、编辑并精炼内容。WhisperChain支持全局快捷键,方便用户随时启动语音输入,自动将清理后的文本复制到剪贴板,方便粘贴使用。

    AI教程资讯 2023-04-14

  • 星火医疗大模型X1 – 讯飞医疗推出的深度推理大模型
    星火医疗大模型X1 – 讯飞医疗推出的深度推理大模型

    星火医疗大模型X1是科大讯飞发布的深度推理大模型,专门针对医疗领域设计,具备强大的复杂问题处理能力。模型通过深度推理算法,能逐步解释循证过程,显著降低医疗幻觉问题,提升医疗场景推理的逻辑性和专业性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定