TripoSF – VAST AI 开源的新一代 3D 基础模型-爱论文

TripoSF是什么

TripoSF是VAST推出的新一代3D基础模型，突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法，结合稀疏体素结构，仅在物体表面附近的区域存储和计算体素信息，大幅降低内存占用，支持高分辨率训练和推理。TripoSF引入“视锥体感知的分区体素训练”策略，进一步降低训练开销。实验显示，TripoSF在多个基准测试中表现优异，Chamfer Distance降低约82%，F-score提升约88%。

TripoSF的主要功能

细节捕捉能力：传统3D建模方法在细节捕捉上往往力不从心，TripoSF能捕捉精细的表面细节和微观结构。在多个标准基准测试中，TripoSF实现了约82%的Chamfer Distance降低和约88%的F-score提升。拓扑结构支持：TripoSF原生支持任意拓扑，能自然地表示开放表面和内部结构。使TripoSF在处理如布料、叶片等复杂结构时具有明显优势。计算资源需求：TripoSF通过稀疏体素结构大幅降低了内存占用。使TripoSF在高分辨率建模时更加高效，减少了对计算资源的需求。实时渲染能力：TripoSF的视锥体感知训练策略使它在动态和复杂环境中实现更高适应性。TripoSF可以使用渲染损失进行端到端训练，避免了数据转换（如水密化）导致的细节退化。高分辨率建模：TripoSF能在1024³的高分辨率下进行训练和推理，使TripoSF能生成更加精细和真实的3D模型。

TripoSF的技术原理

SparseFlex表示方法：TripoSF的核心是SparseFlex表示方法，借鉴了英伟达Flexicubes的优势，引入了稀疏体素结构。与传统的稠密网格不同，稀疏体素结构仅在物体表面附近的区域存储和计算体素数据，大幅降低了内存占用。使TripoSF能在1024³的高分辨率下进行训练和推理，同时原生支持任意拓扑结构。视锥体感知的分区体素训练策略：策略借鉴了实时渲染中的视锥体剔除思想，在每次训练迭代中，仅激活和处理位于相机视锥体内的SparseFlex体素。有针对性的激活显著降低了训练开销，使高分辨率下的高效训练成为可能。TripoSF变分自编码器（VAE）：基于SparseFlex表示和高效的训练策略，VAST构建了TripoSF VAE，形成了一整套完善高效的处理流程。从输入、编码、解码到输出，TripoSF VAE成为TripoSF重建和生成体验向前迈出一大步的重要基础。

TripoSF的项目地址

项目官网：https://xianglonghe.github.io/TripoSF/Github仓库：https://github.com/VAST-AI-Research/TripoSFHuggingFace模型库：https://huggingface.co/VAST-AI/TripoSFarXiv技术论文：https://arxiv.org/pdf/2503.21732