当前位置: 网站首页 >AI教程资讯 >正文

AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

来源:爱论文 时间:2025-03-14 15:43:23

AvatarGO是什么

AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本(zero-shot)方法基于预训练的扩散模型,解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。AvatarGO 的核心包括:LLM 引导的接触重定位,基于 Lang-SAM 从文本提示中识别接触部位,确保人体与物体的空间关系精确表示;对应感知的运动优化,用 SMPL-X 的线性混合蒙皮函数构建运动场,优化人体和物体的动画,减少穿透问题。AvatarGO框架在多种人体与物体组合及多样化姿态下表现出优越的生成和动画能力。

AvatarGO

AvatarGO的主要功能

从文本生成 4D 交互场景:基于简单的文本描述直接生成包含人体和物体交互的 4D 动画。精确的人体与物体接触表示:准确识别人体与物体的接触部位(如手、脚等),确保在生成的 3D 和 4D 场景中,人体与物体的空间关系是合理的。解决动画中的穿透问题:在动画生成过程中,有效避免人体与物体之间的穿透现象。多样化的 4D 动画生成:生成动态的 4D 动画,支持多种人物动作和物体交互。支持多种人物和物体组合:处理各种人物和物体的组合,包括虚拟角色(如动漫人物、超级英雄)和现实人物,及各种日常物品(如武器、工具、乐器等)。

AvatarGO的技术原理

LLM 引导的接触重定位: Lang-SAM(Language Segment Anything Model) 从文本描述中提取接触部位(如“手”)。基于将 3D 人体模型渲染成 2D 图像,结合文本提示,生成人体接触部位的分割掩码。掩码被反向投影到 3D 模型中,初始化物体的位置,确保物体与人体的接触部位是准确的。空间感知的分数蒸馏采样:引入 SSDS,增强与人体-物体交互相关的文本标记(如“holding”)的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。对应关系感知的运动优化: SMPL-X 模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。基于扩散模型的 3D 和 4D 生成:3D 生成:用 DreamGaussian 方法生成高质量的 3D 人体和物体模型。基于 3D 高斯点云表示场景,分数蒸馏采样(SDS)优化生成结果。4D 动画生成:在 3D 模型的基础上,基于 HexPlane 特征 和 SMPL-X 模型生成动态的 4D 动画。优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的 4D 动画。

AvatarGO的项目地址

项目官网:https://yukangcao.github.io/AvatarGOGitHub仓库:https://github.com/yukangcao/AvatarGOarXiv技术论文:https://arxiv.org/pdf/2410.07164

AvatarGO的应用场景

虚拟导购员:在商店中为顾客提供商品信息和购物建议。展厅讲解员:在博物馆或展厅中介绍展品和产品信息。数字大堂经理:在银行或营业厅提供咨询和引导服务。车载虚拟助手:在汽车中作为智能助手,提供陪伴和交互体验。VR/AR内容创作:生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。
上一篇:Moonlight-16B-A3B – 月之暗面开源的 MoE 模型
相关资讯 更多+
  • AvatarGO –  南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
    AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

    AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本(zero-shot)方法基于预训练的扩散模型,解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。

    AI教程资讯 2023-04-14

  • Moonlight-16B-A3B – 月之暗面开源的 MoE 模型
    Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

    Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。

    AI教程资讯 2023-04-14

  • FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计
    FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计

    FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式,提升了内存和计算效率。在 H800 SXM5 GPU 上,FlashMLA 的内存带宽可达 3000 GB s,计算性能可达 580 TFLOPS。

    AI教程资讯 2023-04-14

  • MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架
    MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架

    MagicArticulate 是南洋理工大学和字节跳动Seed实验室推出的自动将静态 3D 模型转换为可动画化资产的框架。MagicArticulate基于自回归生成骨架,预测蒙皮权重,使模型能支持逼真的动画。MagicArticulate引入 Articulation-XL 数据集,包含超过 33,000 个高质量关节注释的 3D 模型,推出一种基于自回归 Transformer 的骨架生成方法,自然处理不同模型中骨骼数量和依赖关系的变化。

    AI教程资讯 2023-04-14

最新录入 更多+
确定