FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架-爱论文

FantasyID是什么

FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成（IPT2V）框架，基于增强人脸知识生成高质量的身份一致视频。FantasyID基于扩散变换器（Diffusion Transformers），引入3D面部几何先验知识，确保视频合成中面部结构的稳定性和合理性。FantasyID基于多视角人脸增强策略，避免模型简单复制参考人脸，增加面部表情和头部姿态的动态性。FantasyID基于可学习的分层感知注入机制，将融合的2D和3D特征有选择地注入到扩散模型的每一层，平衡身份保留和动作动态性。

FantasyID的主要功能

身份保留：确保生成视频中的人物面部特征与输入的参考图像保持一致，在复杂的动作和表情变化中，维持高度的身份相似性。动态增强：增加面部表情和头部姿态的多样性，避免生成视频中的“复制粘贴”现象。高质量视频生成：结合3D面部几何先验和2D视觉特征，生成具有稳定结构和丰富细节的视频，同时保持视频的时空连贯性。无需微调：无需针对每个输入图像进行额外的模型微调，实现高效、灵活的身份保留视频生成，适合大规模应用。

FantasyID的技术原理

3D 面部几何先验：基于DECA框架从输入的人脸图像中提取3D面部结构（如形状点云），为视频生成提供稳定的几何约束，确保面部结构在动态变化中的稳定性。多视角人脸增强：构建多视角人脸集合，从不同角度采样人脸图像，增强模型对2D面部外观特征的理解，避免生成视频中面部的单一性，提升动态表现。特征融合：将提取的2D视觉特征和3D几何特征通过融合变换器结合，生成综合的面部描述符，用于指导视频生成。分层感知信号注入：针对扩散变换器的层次化特性，设计一种可学习的分层感知机制，将融合后的特征有选择地注入到不同层次，实现身份保留与动态表现的平衡。扩散模型：基于扩散模型的生成框架，通过逐步去噪的过程，从噪声中重建出符合文本描述和身份特征的视频内容。

FantasyID的项目地址

项目官网：https://fantasy-amap.github.io/fantasy-id/GitHub仓库：https://github.com/Fantasy-AMAP/fantasy-idarXiv技术论文：https://arxiv.org/pdf/2502.13995

FantasyID的应用场景

个性化虚拟形象：用于虚拟社交、元宇宙和游戏，生成与用户身份一致的虚拟形象。虚拟内容创作：生成动态视频内容，辅助影视、广告和短视频制作，降低创作成本。虚拟客服与数字人：创建自然、逼真的数字人形象，用于在线客服和智能助手，提升交互体验。虚拟试妆与试衣：结合电商和美容行业，生成试妆或试衣的动态视频，优化购物体验。互动式教育：生成教师或培训师的动态视频，用于在线课程和模拟场景，增强教学效果。