当前位置: 网站首页 >AI教程资讯 >正文

FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

来源:爱论文 时间:2025-03-14 10:00:54

FantasyID是什么

FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成(IPT2V)框架,基于增强人脸知识生成高质量的身份一致视频。FantasyID基于扩散变换器(Diffusion Transformers),引入3D面部几何先验知识,确保视频合成中面部结构的稳定性和合理性。FantasyID基于多视角人脸增强策略,避免模型简单复制参考人脸,增加面部表情和头部姿态的动态性。FantasyID基于可学习的分层感知注入机制,将融合的2D和3D特征有选择地注入到扩散模型的每一层,平衡身份保留和动作动态性。

FantasyID

FantasyID的主要功能

身份保留:确保生成视频中的人物面部特征与输入的参考图像保持一致,在复杂的动作和表情变化中,维持高度的身份相似性。动态增强:增加面部表情和头部姿态的多样性,避免生成视频中的“复制粘贴”现象。高质量视频生成:结合3D面部几何先验和2D视觉特征,生成具有稳定结构和丰富细节的视频,同时保持视频的时空连贯性。无需微调:无需针对每个输入图像进行额外的模型微调,实现高效、灵活的身份保留视频生成,适合大规模应用。

FantasyID的技术原理

3D 面部几何先验:基于DECA框架从输入的人脸图像中提取3D面部结构(如形状点云),为视频生成提供稳定的几何约束,确保面部结构在动态变化中的稳定性。多视角人脸增强:构建多视角人脸集合,从不同角度采样人脸图像,增强模型对2D面部外观特征的理解,避免生成视频中面部的单一性,提升动态表现。特征融合:将提取的2D视觉特征和3D几何特征通过融合变换器结合,生成综合的面部描述符,用于指导视频生成。分层感知信号注入:针对扩散变换器的层次化特性,设计一种可学习的分层感知机制,将融合后的特征有选择地注入到不同层次,实现身份保留与动态表现的平衡。扩散模型:基于扩散模型的生成框架,通过逐步去噪的过程,从噪声中重建出符合文本描述和身份特征的视频内容。

FantasyID的项目地址

项目官网:https://fantasy-amap.github.io/fantasy-id/GitHub仓库:https://github.com/Fantasy-AMAP/fantasy-idarXiv技术论文:https://arxiv.org/pdf/2502.13995

FantasyID的应用场景

个性化虚拟形象:用于虚拟社交、元宇宙和游戏,生成与用户身份一致的虚拟形象。虚拟内容创作:生成动态视频内容,辅助影视、广告和短视频制作,降低创作成本。虚拟客服与数字人:创建自然、逼真的数字人形象,用于在线客服和智能助手,提升交互体验。虚拟试妆与试衣:结合电商和美容行业,生成试妆或试衣的动态视频,优化购物体验。互动式教育:生成教师或培训师的动态视频,用于在线课程和模拟场景,增强教学效果。
上一篇:SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架
相关资讯 更多+
  • FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架
    FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

    FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成(IPT2V)框架,基于增强人脸知识生成高质量的身份一致视频。FantasyID基于扩散变换器(Diffusion Transformers),引入3D面部几何先验知识,确保视频合成中面部结构的稳定性和合理性。

    AI教程资讯 2023-04-14

  • SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架
    SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架

    SigStyle 是吉林大学、南京大学智能科学与技术学院及Adobe推出的新型签名风格迁移框架,支持将单张风格图像中独特的视觉特征(如几何结构、色彩搭配、笔触等)无缝迁移到内容图像上。SigStyle基于个性化文本到图像扩散模型,用超网络高效微调模型捕捉签名风格,将风格表示为特殊标记。

    AI教程资讯 2023-04-14

  • VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
    VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型

    VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2 5-VL 架构,结合 DeepSeek 的 R1 方法,通过强化学习优化和监督微调(SFT)提升模型的稳定性和泛化能力。

    AI教程资讯 2023-04-14

  • FacePoke – 开源的实时面部编辑工具,拖拽操作面部表情
    FacePoke – 开源的实时面部编辑工具,拖拽操作面部表情

    FacePoke是基于AI技术的开源实时面部编辑工具。用户基于简单的鼠标拖拽操作,对人物照片中的头部朝向(如抬头、低头、左右摇头)和面部表情(如眼睛睁闭、眼球方向、眉毛和嘴巴变化)进行实时编辑,使静态图片变得栩栩如生。

    AI教程资讯 2023-04-14

最新录入 更多+
确定