AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架-爱论文

AvatarGO是什么

AvatarGO 是南洋理工大学S-Lab、上海 AI Lab，香港大学联合推出的新型框架，用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本（zero-shot）方法基于预训练的扩散模型，解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。AvatarGO 的核心包括：LLM 引导的接触重定位，基于 Lang-SAM 从文本提示中识别接触部位，确保人体与物体的空间关系精确表示；对应感知的运动优化，用 SMPL-X 的线性混合蒙皮函数构建运动场，优化人体和物体的动画，减少穿透问题。AvatarGO框架在多种人体与物体组合及多样化姿态下表现出优越的生成和动画能力。

AvatarGO的主要功能

从文本生成 4D 交互场景：基于简单的文本描述直接生成包含人体和物体交互的 4D 动画。精确的人体与物体接触表示：准确识别人体与物体的接触部位（如手、脚等），确保在生成的 3D 和 4D 场景中，人体与物体的空间关系是合理的。解决动画中的穿透问题：在动画生成过程中，有效避免人体与物体之间的穿透现象。多样化的 4D 动画生成：生成动态的 4D 动画，支持多种人物动作和物体交互。支持多种人物和物体组合：处理各种人物和物体的组合，包括虚拟角色（如动漫人物、超级英雄）和现实人物，及各种日常物品（如武器、工具、乐器等）。

AvatarGO的技术原理

LLM 引导的接触重定位： Lang-SAM（Language Segment Anything Model）从文本描述中提取接触部位（如“手”）。基于将 3D 人体模型渲染成 2D 图像，结合文本提示，生成人体接触部位的分割掩码。掩码被反向投影到 3D 模型中，初始化物体的位置，确保物体与人体的接触部位是准确的。空间感知的分数蒸馏采样：引入 SSDS，增强与人体-物体交互相关的文本标记（如“holding”）的注意力权重，帮助扩散模型理解人体与物体之间的空间关系。对应关系感知的运动优化： SMPL-X 模型作为中介，为人体和物体构建运动场。基于线性混合蒙皮（LBS）函数，将物体的运动与人体的运动同步优化。引入新的训练目标——对应关系感知损失，最小化人体与物体之间的空间偏差，确保在动画过程中两者不会出现穿透现象。基于扩散模型的 3D 和 4D 生成：3D 生成：用 DreamGaussian 方法生成高质量的 3D 人体和物体模型。基于 3D 高斯点云表示场景，分数蒸馏采样（SDS）优化生成结果。4D 动画生成：在 3D 模型的基础上，基于 HexPlane 特征和 SMPL-X 模型生成动态的 4D 动画。优化物体的全局参数（如旋转、平移）和人体的运动序列，生成连贯且逼真的 4D 动画。