Scenethesis – 英伟达推出的交互式3D场景生成框架-爱论文

Scenethesis是什么

Scenethesis 是 NVIDIA 推出的创新框架，用在从文本生成交互式 3D 场景。框架结合大型语言模型（LLM）和视觉感知技术，基于多阶段流程实现高效生成，用 LLM 进行粗略布局规划，基于视觉模块细化布局生成图像指导，用优化模块调整物体姿态确保物理合理性，基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景，具有高度的真实感和物理合理性，广泛应用在虚拟内容创作、仿真环境和具身智能研究等领域。

Scenethesis的主要功能

文本生成3D场景：用户输入文本描述，AI自动生成对应的3D场景。物理合理性：生成的场景物体不会相互穿透，能稳定放置，符合物理规则。用户交互：用户能调整物体位置、大小等，场景实时更新。多样化场景与物体库：支持多种室内外场景，包含丰富3D模型供选择。场景验证：自动检查场景质量，必要时重新生成优化，确保高质量输出。

Scenethesis的技术原理

粗略布局规划（LLM模块）：用户输入文本描述后，LLM对文本进行解析，理解场景的主题和关键元素。LLM从预定义的3D模型库中选择与场景描述相关的物体，生成一个粗略的布局计划。LLM生成详细的提示，描述场景中物体的初步位置和关系，为后续的视觉细化提供基础。视觉细化（视觉模块）：根据LLM生成的提示，视觉模块（如基于扩散模型的图像生成器）生成详细的图像，作为场景布局的视觉指导。基于预训练的视觉基础模型（如Grounded-SAM和DepthPro）对生成的图像进行分割和深度估计，提取场景图，包括物体的3D边界框和空间关系。根据场景图和提示，从3D模型库中检索与场景描述匹配的3D物体模型。物理优化（物理优化模块）：基于语义对应匹配技术（如RoMa）对3D模型和图像指导中的物体进行姿态对齐，确保物体的位置、尺寸和方向与图像指导一致。用有符号距离场（SDF）技术检测物体之间的碰撞，调整物体的位置和尺寸，避免碰撞。场景验证（场景验证模块）：基于预训练的语言模型评估生成场景的空间连贯性，确保物体的位置和关系符合常识。如果评估结果不满足要求，系统将触发重新规划和优化过程，直到生成的场景达到高质量标准。