当前位置: 网站首页 >AI教程资讯 >正文

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

来源:爱论文 时间:2025-05-08 12:03:01

LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“摊销优化(amortized)”的方法,即在大量文本提示上同时优化一个共享的文本条件模型,以此提高模型对新提示的泛化能力,从而减少了生成每个3D对象所需的时间。

LATTE3D的官网入口

官方项目主页:https://research.nvidia.com/labs/toronto-ai/LATTE3D/研究论文:https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view

LATTE3D的主要功能

文本到3D合成: 能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示,如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”,来生成具有特定特征和风格的3D对象。快速生成: LATTE3D可以在大约400毫秒内生成3D对象,这使得它能够实时地响应用户的输入,为用户提供即时的视觉反馈。高质量渲染: 通过结合神经场和纹理表面生成,LATTE3D能够产生具有高细节水平的纹理网格,提供视觉上令人信服的3D渲染结果。3D风格化: LATTE3D还可以作为3D风格化工具,允许用户在现有的3D资产上应用新的风格或主题,从而创造出多样化的视觉表现。

LATTE3D的架构方法

LATTE3D 的训练包含两个阶段:首先,使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性,训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后,使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。

LATTE3D 的方法使用两个网络:纹理网络 T 和几何网络 G,两者均由 triplanes 和 U-Net 的组合组成。在第一阶段,两个网络的编码器共享相同的权重集。在第二阶段,冻结几何网络 G 并更新纹理网络 T,并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。

上一篇:BrushNet – 腾讯推出的高质量图像照片修复模型
相关资讯 更多+
  • LATTE3D – 英伟达推出的文本快速生成3D对象的模型
    LATTE3D – 英伟达推出的文本快速生成3D对象的模型

    LATTE3D是由英伟达的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“摊销优化(amortized)”的方法,即在大量文本提示上同时优化一个共享的文本条件模型,以此提高模型对新提示的泛化能力,从而减少了生成每个3D对象所需的时间。

    AI教程资讯 2023-04-14

  • BrushNet – 腾讯推出的高质量图像照片修复模型
    BrushNet – 腾讯推出的高质量图像照片修复模型

    BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效处理图像中的遮罩区域,可保持原有图像内容连贯性的同时,生成高质量的修复结果。

    AI教程资讯 2023-04-14

  • SUPIR – 高保真的AI图像修复和画质增强模型
    SUPIR – 高保真的AI图像修复和画质增强模型

    SUPIR是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。

    AI教程资讯 2023-04-14

  • StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
    StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

    StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。

    AI教程资讯 2023-04-14

最新录入 更多+
确定