当前位置: 网站首页 >AI教程资讯 >正文

DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架

来源:爱论文 时间:2025-03-17 12:46:04

DynamicCity是什么

DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80×80×6.4 m³)和长序列(最多 128 帧)的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示,用基于扩散模型(DiT)的生成器重建动态场景。DynamicCity 框架支持多种应用,如轨迹引导、指令驱动生成和动态场景修复。DynamicCity 在 CarlaSC 和 Occ3D-Waymo 数据集上表现出色,显著优于现有方法,展现了在高质量动态场景生成中的强大能力,为自动驾驶和机器人技术提供了有力支持。

DynamicCity

DynamicCity的主要功能

高质量 4D 场景生成:生成大规模、高质量的动态 LiDAR 场景,捕捉真实世界环境中动态变化的时空演变。支持长达 128 帧的长序列生成,能模拟复杂的动态环境。多样化下游应用:轨迹引导生成:基于输入特定的轨迹,控制场景中对象的运动。指令驱动生成:基于指令(如“左转”、“右转”、“前进”)控制自车或场景的运动。动态场景修复(Inpainting):对部分缺失或损坏的场景进行修复,生成完整的动态场景。布局条件生成:基于鸟瞰图布局控制车辆和其他对象的放置。

DynamicCity的技术原理

VAE 模型:编码阶段:将 4D LiDAR 场景编码为紧凑的 HexPlane 表示。基于 3D 卷积神经网络提取特征,用 Projection Module 将 4D 特征压缩为六个 2D 特征图。提升 HexPlane 的拟合质量(最高提升 12.56% 的 mIoU)。解码阶段:基于 Expansion & Squeeze Strategy (ESS) 并行解码 HexPlane,重建 3D 特征体积。相比逐点查询的方法,ESS 提升了拟合质量(最高提升 7.05% 的 mIoU),加快了训练速度(最高提升 2.06 倍)减少了内存使用(最高减少 70.84%)。DiT 模型:HexPlane 生成:基于编码后的 HexPlane,DiT 模型用于生成新的 HexPlane,实现 4D LiDAR 场景的生成。为使 HexPlane 适用于 DiT 生成,提出 Padded Rollout Operation (PRO),将六个特征平面重新组织为一个方形 2D 特征图,高效地建模了特征序列中的空间和时间关系。条件生成:DiT 支持基于条件注入(如轨迹、指令、布局等)实现多样化的 4D 场景生成应用。 Classifier-Free Guidance (CFG),模型在训练时同时学习条件生成和无条件生成,在生成过程中实现更精细的控制。

DynamicCity的项目地址

项目官网:https://dynamic-city.github.io/GitHub仓库:https://github.com/3DTopia/DynamicCityarXiv技术论文:https://arxiv.org/pdf/2410.18084

DynamicCity的应用场景

自动驾驶仿真:生成复杂动态场景,用于自动驾驶算法的开发和测试,提升系统安全性。虚拟现实:创建逼真的虚拟环境,支持 VR 和 AR 应用,如虚拟驾驶和城市规划展示。机器人导航:模拟三维动态环境,帮助机器人进行路径规划和障碍物检测,增强适应性。交通流量分析:建模和分析交通流量,预测拥堵,优化交通信号和道路规划。智能城市规划:生成城市级动态场景,辅助评估城市布局和公共设施规划。
上一篇:MoBA – Moonshot AI 提出的新型注意力机制
相关资讯 更多+
  • DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
    DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架

    DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80×80×6 4 m³)和长序列(最多 128 帧)的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示,用基于扩散模型(DiT)的生成器重建动态场景。

    AI教程资讯 2023-04-14

  • MoBA – Moonshot AI 提出的新型注意力机制
    MoBA – Moonshot AI 提出的新型注意力机制

    MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。

    AI教程资讯 2023-04-14

  • ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台
    ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台

    ToddlerBot是斯坦福大学开源的用在运动操作的开源机器学习与人形机器人平台,为高效收集大规模、高质量的训练数据设计。ToddlerBot具备30个主动自由度,用Dynamixel电机,总成本控制在6000美元以内。基于数字孪生技术和零点校准,ToddlerBot能实现模拟到现实的零样本转移,且远程操作设备支持高效现实世界数据收集。

    AI教程资讯 2023-04-14

  • Phantom – 字节跳动推出的主体一致视频生成框架
    Phantom – 字节跳动推出的主体一致视频生成框架

    Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。

    AI教程资讯 2023-04-14

最新录入 更多+
确定