当前位置: 网站首页 >AI教程资讯 >正文

Aether – 上海 AI Lab 开源的生成式世界模型

来源:爱论文 时间:2025-04-27 09:07:59

Aether是什么

Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。Aether 能感知环境、理解物体位置和运动关系,做出智能决策。Aether 在真实世界中展现出强大的零样本泛化能力,使用虚拟数据训练完成高效完成复杂任务,为具身智能系统提供强大的空间推理和决策支持。

Aether的主要功能

4D 动态重建:从视频中重建包含时间和空间的三维场景模型,捕捉动态变化。动作条件视频预测:根据初始观察和动作轨迹预测未来场景的变化。目标导向视觉规划:根据起始和目标场景生成合理路径,辅助智能系统规划行动路线。

Aether的技术原理

统一多任务框架:将动态重建、视频预测和动作规划三项任务融合在一个统一的框架中进行优化。基于任务交错的特征学习,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。几何感知建模:引入三维时空建模,构建几何空间提升模型的空间推理能力。用海量仿真 RGBD 数据(彩色图像和深度图),开发一套完整的数据清洗与动态重建流程,标注丰富的动作序列。相机轨迹作为动作表征:选择相机轨迹作为全局动作的表示方式。在导航任务中,相机轨迹直接对应导航路径;在机器人操作中,手柄相机的运动可以捕捉末端执行器的 6D 运动。扩散模型与多模态融合:基于预训练的视频扩散模型,用合成 4D 数据进行后训练。将深度视频转换为尺度不变的归一化视差表示,将相机轨迹编码为与扩散变换器(DiTs)时空框架对齐的尺度不变射线图序列表示。基于动态整合跨任务和跨模态的条件信号,Aether 实现多模态信息的融合和协同优化。零样本泛化能力:完全在虚拟数据上训练,实现对真实世界的零样本泛化。基于组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现对多种任务的统一建模与生成。让模型在没有真实世界数据的情况下,迁移到真实场景中表现出色。

Aether的项目地址

项目官网:https://aether-world.github.io/GitHub仓库:https://github.com/OpenRobotLab/AetherHuggingFace模型库:https://huggingface.co/AetherWorldModel/AetherV1arXiv技术论文:https://arxiv.org/pdf/2503.18945在线体验Demo:https://huggingface.co/spaces/AmberHeart/AetherV1

Aether的应用场景

机器人导航:帮助机器人规划路径,避开动态障碍。自动驾驶:实时重建道路场景,预测交通动态。虚拟现实:生成沉浸式虚拟场景,增强用户体验。工业机器人:优化机器人操作路径,提高生产效率。智能监控:分析监控视频,预测异常行为。
上一篇:Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型
相关资讯 更多+
  • Aether – 上海 AI Lab 开源的生成式世界模型
    Aether – 上海 AI Lab 开源的生成式世界模型

    Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。

    AI教程资讯 2023-04-14

  • Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型
    Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型

    Infinite Mobility 是上海AI Lab推出的可交互物体生成模型,基于程序化生成技术,高效生成高质量的可交互物体数据资产。Infinite Mobility支持22类常见可交互物体的生成,单个物体生成仅需约1秒,且生成数量无上限。

    AI教程资讯 2023-04-14

  • ChatTS-14B – 字节开源的时间序列理解和推理大模型
    ChatTS-14B – 字节开源的时间序列理解和推理大模型

    ChatTS-14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型,参数量达 140 亿。基于 Qwen2 5-14B-Instruct 微调而成,通过合成数据对齐技术显著提升了在时间序列任务中的表现。

    AI教程资讯 2023-04-14

  • MAGI-1 – Sand AI 开源的首个自回归视频生成模型
    MAGI-1 – Sand AI 开源的首个自回归视频生成模型

    MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。

    AI教程资讯 2023-04-14

最新录入 更多+
确定