TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术-爱论文

TaoAvatar是什么

TaoAvatar是阿里巴巴集团研究团队推出的高保真、轻量级的3D全身对话虚拟人技术。基于3D高斯溅射技术，能生成照片级逼真的3D全身虚拟形象，支持高分辨率渲染且存储需求低。TaoAvatar可在多种移动和AR设备上以90FPS的高帧率实时运行，通过语音、表情、手势和身体姿势等多种信号驱动，实现口型、表情和动作的自然同步。

TaoAvatar的主要功能

高保真全身动态虚拟形象生成：能从多视角图像序列中生成逼真的、拓扑结构一致的3D全身虚拟形象，支持对姿态、手势和表情的精细控制。实时渲染与低存储需求：可在多种移动和AR设备上以90FPS的高帧率实时运行，支持高分辨率渲染，同时保持低存储需求。多信号驱动：可通过语音、表情、手势和身体姿势等多种信号驱动，实现口型、表情和动作的自然同步。轻量级架构：通过将复杂的非刚性变形“烘焙”到轻量级的MLP网络中，结合混合形状补偿细节，显著提高了运行效率。

TaoAvatar的技术原理

3D高斯溅射（3DGS）技术：：3DGS通过使用3D高斯函数来表示场景中的点，将这些高斯函数投影到2D图像平面上进行渲染。每个3D高斯由位置、协方差、颜色和透明度等参数描述。通过结构光（Structure from Motion, SfM）技术从多视角图像中估计3D点云，然后将每个点转换为高斯函数，使用随机梯度下降进行训练。姿态依赖非刚性变形处理：TaoAvatar将复杂的非刚性变形分解为刚性变形和形状变形两部分，通过知识蒸馏技术将形状变形“烘焙”到轻量级的MLP网络中。能高效处理复杂的姿态依赖非刚性变形，同时保持虚拟形象的逼真度和可控性。可学习的高斯混合形状：为了进一步增强虚拟形象的外观细节，TaoAvatar引入了可学习的高斯混合形状。通过训练神经网络学习不同姿态和表情下的高斯混合形状参数，然后将这些参数应用到虚拟形象上。使虚拟形象在不同姿态和表情下都能保持极高的保真度。实时渲染与优化：TaoAvatar采用多种优化技术，如GPU加速、减少不必要的计算、优化模型结构和参数等，实现高质量的实时渲染。在高清立体显示设备如Apple Vision Pro上，能保持每秒90帧的流畅运行。