当前位置: 网站首页 >AI教程资讯 >正文

Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术

来源:爱论文 时间:2025-04-18 11:23:30

Bolt3D是什么

Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上,Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。

Bolt3D

Bolt3D的主要功能

快速生成 3D 场景:Bolt3D 是一种前馈式生成方法,能直接从一张或多张输入图像中采样出 3D 场景表示,生成速度极快,在单个 GPU 上仅需 6.25 秒即可完成。多视角输入与泛化能力:支持不同数量的输入图像,从单视图到多视图均可处理,能生成未被观测区域的内容,具备良好的泛化能力。高保真 3D 场景表示:基于高斯溅射(Gaussian Splatting)技术来存储数据,通过布置在二维网格中的三维高斯函数来构建三维场景,每个函数都记录着位置、颜色、透明度和空间信息,生成的 3D 场景质量高。实时交互与应用:用户可以在浏览器中实时查看和渲染生成的 3D 场景,具有广泛的应用前景,如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。

Bolt3D的技术原理

几何多视角潜在扩散模型:训练了多视图潜在扩散模型,用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入,学习捕捉目标图像、目标点图和源视图点图的联合分布。几何 VAE:训练了几何 VAE,将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化,能以高精度压缩点图。高斯头部模型:给定相机以及生成的图像和点图,训练多视图前馈高斯头部模型,输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。大规模多视图一致数据集:为了训练 Bolt3D,创建了大规模的多视图一致的 3D 几何和外观数据集,通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。三阶段训练过程:采用三阶段训练过程,首先训练几何变分自编码器(Geometry VAE),然后训练高斯头部模型,最后训练潜在扩散模型。

Bolt3D的项目地址

项目官网:https://szymanowiczs.github.io/bolt3darXiv技术论文:https://arxiv.org/pdf/2503.14445

Bolt3D的应用场景

游戏开发:快速生成游戏中的 3D 场景,减少开发时间和成本。虚拟现实与增强现实:为 VR 和 AR 应用提供实时的 3D 场景生成,提升用户体验。建筑设计:快速生成建筑的 3D 模型,便于设计和展示。影视制作:用于电影和电视剧中的特效制作,快速生成复杂的 3D 场景。
上一篇:Piece it Together – Bria AI等机构推出的图像生成框架
相关资讯 更多+
  • Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术
    Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术

    Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。

    AI教程资讯 2023-04-14

  • Piece it Together – Bria AI等机构推出的图像生成框架
    Piece it Together – Bria AI等机构推出的图像生成框架

    Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识,将用户提供的碎片化视觉元素无缝整合到连贯的整体中,智能补充缺失的部分,生成完整且富有创意的概念图像。

    AI教程资讯 2023-04-14

  • TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
    TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型

    TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0 5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构,采用了大型重建模型(LRM)的原理,对数据处理、模型设计和训练技术进行了多项改进。

    AI教程资讯 2023-04-14

  • ModelEngine – 华为开源的全流程 AI 开发工具链
    ModelEngine – 华为开源的全流程 AI 开发工具链

    ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和应用落地难的关键问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定