Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术-爱论文

Bolt3D是什么

Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术，是潜在扩散模型，能在单个 GPU 上，仅需不到七秒的时间，直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上，Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。

Bolt3D的主要功能

快速生成 3D 场景：Bolt3D 是一种前馈式生成方法，能直接从一张或多张输入图像中采样出 3D 场景表示，生成速度极快，在单个 GPU 上仅需 6.25 秒即可完成。多视角输入与泛化能力：支持不同数量的输入图像，从单视图到多视图均可处理，能生成未被观测区域的内容，具备良好的泛化能力。高保真 3D 场景表示：基于高斯溅射（Gaussian Splatting）技术来存储数据，通过布置在二维网格中的三维高斯函数来构建三维场景，每个函数都记录着位置、颜色、透明度和空间信息，生成的 3D 场景质量高。实时交互与应用：用户可以在浏览器中实时查看和渲染生成的 3D 场景，具有广泛的应用前景，如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。

Bolt3D的技术原理

几何多视角潜在扩散模型：训练了多视图潜在扩散模型，用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入，学习捕捉目标图像、目标点图和源视图点图的联合分布。几何 VAE：训练了几何 VAE，将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化，能以高精度压缩点图。高斯头部模型：给定相机以及生成的图像和点图，训练多视图前馈高斯头部模型，输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。大规模多视图一致数据集：为了训练 Bolt3D，创建了大规模的多视图一致的 3D 几何和外观数据集，通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。三阶段训练过程：采用三阶段训练过程，首先训练几何变分自编码器（Geometry VAE），然后训练高斯头部模型，最后训练潜在扩散模型。