DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架-爱论文

DynamicCity是什么

DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景，能处理大规模空间（80×80×6.4 m³）和长序列（最多 128 帧）的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示，用基于扩散模型（DiT）的生成器重建动态场景。DynamicCity 框架支持多种应用，如轨迹引导、指令驱动生成和动态场景修复。DynamicCity 在 CarlaSC 和 Occ3D-Waymo 数据集上表现出色，显著优于现有方法，展现了在高质量动态场景生成中的强大能力，为自动驾驶和机器人技术提供了有力支持。

DynamicCity的主要功能

高质量 4D 场景生成：生成大规模、高质量的动态 LiDAR 场景，捕捉真实世界环境中动态变化的时空演变。支持长达 128 帧的长序列生成，能模拟复杂的动态环境。多样化下游应用：轨迹引导生成：基于输入特定的轨迹，控制场景中对象的运动。指令驱动生成：基于指令（如“左转”、“右转”、“前进”）控制自车或场景的运动。动态场景修复（Inpainting）：对部分缺失或损坏的场景进行修复，生成完整的动态场景。布局条件生成：基于鸟瞰图布局控制车辆和其他对象的放置。

DynamicCity的技术原理

VAE 模型：编码阶段：将 4D LiDAR 场景编码为紧凑的 HexPlane 表示。基于 3D 卷积神经网络提取特征，用 Projection Module 将 4D 特征压缩为六个 2D 特征图。提升 HexPlane 的拟合质量（最高提升 12.56% 的 mIoU）。解码阶段：基于 Expansion & Squeeze Strategy (ESS) 并行解码 HexPlane，重建 3D 特征体积。相比逐点查询的方法，ESS 提升了拟合质量（最高提升 7.05% 的 mIoU），加快了训练速度（最高提升 2.06 倍）减少了内存使用（最高减少 70.84%）。DiT 模型：HexPlane 生成：基于编码后的 HexPlane，DiT 模型用于生成新的 HexPlane，实现 4D LiDAR 场景的生成。为使 HexPlane 适用于 DiT 生成，提出 Padded Rollout Operation (PRO)，将六个特征平面重新组织为一个方形 2D 特征图，高效地建模了特征序列中的空间和时间关系。条件生成：DiT 支持基于条件注入（如轨迹、指令、布局等）实现多样化的 4D 场景生成应用。 Classifier-Free Guidance (CFG)，模型在训练时同时学习条件生成和无条件生成，在生成过程中实现更精细的控制。

DynamicCity的项目地址

项目官网：https://dynamic-city.github.io/GitHub仓库：https://github.com/3DTopia/DynamicCityarXiv技术论文：https://arxiv.org/pdf/2410.18084

DynamicCity的应用场景

自动驾驶仿真：生成复杂动态场景，用于自动驾驶算法的开发和测试，提升系统安全性。虚拟现实：创建逼真的虚拟环境，支持 VR 和 AR 应用，如虚拟驾驶和城市规划展示。机器人导航：模拟三维动态环境，帮助机器人进行路径规划和障碍物检测，增强适应性。交通流量分析：建模和分析交通流量，预测拥堵，优化交通信号和道路规划。智能城市规划：生成城市级动态场景，辅助评估城市布局和公共设施规划。