当前位置: 网站首页 >AI教程资讯 >正文

Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型

来源:爱论文 时间:2025-04-16 12:35:22

Amodal3R是什么

Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。Amodal3R 仅使用合成数据进行训练,能在真实场景中表现出色,显著优于现有的“2D 预测补全 + 3D 重建”两步法,为遮挡场景下的 3D 重建树立了新的基准。

Amodal3R

Amodal3R的主要功能

遮挡感知 3D 重建:针对遮挡严重的 2D 图像,Amodal3R 能结合 2D 片段信息与语义推测,生成完整的 3D 模型。超越现有方法:相比于“2D 预测补全 + 3D 重建”两步法,Amodal3R 在遮挡情况下表现更优,建立了新的 3D 重建基准。

Amodal3R的技术原理

基础 3D 生成模型扩展:Amodal3R 从一个“基础”3D 生成模型出发,通过扩展能处理遮挡的 2D 图像,恢复出合理的 3D 几何形状和外观。掩码加权多头交叉注意力机制:模型引入了掩码加权多头交叉注意力机制,能更好地处理遮挡问题。具体来说,通过掩码来引导注意力机制,使模型在生成过程中更加关注可见部分,利用遮挡先验知识来推测被遮挡区域的形状和纹理。遮挡感知注意力层:在掩码加权多头交叉注意力机制之后,Amodal3R 引入了遮挡感知注意力层。基于 DINOv2 的特征提取:Amodal3R 利用 DINOv2 进行高质量的视觉特征提取。DINOv2 提供的特征能为 3D 重建提供更多上下文信息,帮助模型更准确地进行 3D 重建。合成数据训练与泛化能力:Amodal3R 仅使用合成数据进行训练,能学习到在真实场景中即使存在遮挡也能恢复完整 3D 对象的能力。表明模型具有较强的泛化能力,能将从合成数据中学到的知识应用到真实场景中。

Amodal3R的项目地址

项目官网:https://sm0kywu.github.io/Amodal3R/HuggingFace模型库:https://huggingface.co/Sm0kyWu/Amodal3RarXiv技术论文:https://arxiv.org/pdf/2503.13439

Amodal3R的应用场景

增强现实(AR)和虚拟现实(VR):在 AR 和 VR 应用中,Amodal3R 可以帮助从部分可见的 2D 图像中重建完整的 3D 模型,提供更加沉浸式的体验。机器人视觉:机器人在复杂环境中操作时,会遇到物体被部分遮挡的情况。Amodal3R 可以帮助机器人更准确地感知和理解环境中的物体,更好地进行路径规划和任务执行。自动驾驶:在自动驾驶领域,车辆需要实时感知周围环境中的物体。Amodal3R 可以从部分遮挡的图像中重建完整的 3D 模型,帮助自动驾驶系统更准确地识别和处理复杂的交通场景。3D 资产创建:在游戏开发、电影制作和其他需要 3D 资产的领域,Amodal3R 可以从简单的 2D 图像中生成高质量的 3D 模型,简化了 3D 建模的流程。学术研究:Amodal3R 为计算机视觉和 3D 重建领域的研究提供了新的工具和方法。研究人员可以用模型探索更复杂的场景和更高效的重建算法。
上一篇:AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手
相关资讯 更多+
  • Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型
    Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型

    Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。

    AI教程资讯 2023-04-14

  • AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手
    AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手

    AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景。AutoAgent核心功能包括三种使用模式,用户模式、智能体编辑器、工作流编辑器,适应不同用户需求。

    AI教程资讯 2023-04-14

  • Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型
    Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

    Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品种和调整语气,能部署到智能家居设备等“云吠基础设施”。

    AI教程资讯 2023-04-14

  • Cua – 专为 MacOS 推出的开源 AI  Agent项目
    Cua – 专为 MacOS 推出的开源 AI Agent项目

    Cua 是 trycua 团队推出的开源AI Agent项目,为 macOS 用户提供高性能的虚拟化和 AI 代理功能。Cua基于苹果的 Virtualization Framework,支持在 Apple Silicon 上创建运行 macOS 和 Linux 虚拟机,性能接近原生水平(约90%)。

    AI教程资讯 2023-04-14

最新录入 更多+
确定