当前位置: 网站首页 >AI教程资讯 >正文

FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架

来源:爱论文 时间:2025-05-17 10:18:47

FaceShot是什么

FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱动视频,或作为插件与任何地标驱动的动画模型兼容,显著提升整体性能。

FaceShot的主要功能

角色动画生成:为各种类型的角色生成流畅且自然的面部动画,保持角色的原始特征。跨领域动画:支持从人类视频驱动非人类角色(如玩具、动物等)的动画,扩展肖像动画的应用范围。无需训练:无需针对每个角色或驱动视频进行额外的训练或微调,直接生成高质量的动画。兼容性:作为插件与任何地标驱动的动画模型无缝集成。

FaceShot的技术原理

外观引导的地标匹配模块:基于潜在扩散模型的语义对应关系,结合外观先验知识,为任意角色生成精确的面部地标。用DDIM逆过程从参考图像和目标图像中提取扩散特征,基于图像提示减少不同领域之间的外观差异。用余弦距离进行地标匹配,确保地标在语义上的一致性,引入外观画廊进一步优化匹配效果。基于坐标的地标重定位模块:基于坐标系变换捕捉驱动视频中的细微面部动作,生成与之对齐的地标序列。模块分为全局运动和局部运动两个阶段,全局运动负责计算面部的整体平移和旋转,局部运动则分别对眼睛、嘴巴、鼻子、眉毛和面部边界等部分进行相对运动和点运动的重定位。基于简单的坐标变换公式,模块能精确捕捉面部的全局和局部运动,生成稳定的地标序列。地标驱动的动画模型:模块将生成的地标序列输入预训练的动画模型(如MOFA-Video),生成最终的动画视频。将地标序列作为额外条件输入到动画模型的U-Net中,确保模型能精确跟踪地标序列中的运动。基于这种方式,动画模型能用地标序列生成与驱动视频一致的动画效果,保持角色的视觉身份,实现高质量的肖像动画生成。

FaceShot的项目地址

项目官网:https://faceshot2024.github.io/faceshot/GitHub仓库:https://github.com/open-mmlab/FaceShotarXiv技术论文:https://arxiv.org/pdf/2503.00740

FaceShot的应用场景

影视娱乐:为电影、电视剧中的角色生成生动动画,提升视觉效果。游戏开发:快速生成游戏角色动画,增强表现力和趣味性。教育领域:使教育内容更生动,提高学生学习兴趣和教学互动性。广告营销:生成品牌吉祥物动画,提升品牌形象和用户参与感。VR/AR应用:生成虚拟角色动画,提升沉浸感和交互体验。
上一篇:MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架
相关资讯 更多+
  • FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架
    FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架

    FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。

    AI教程资讯 2023-04-14

  • MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架
    MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

    MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。

    AI教程资讯 2023-04-14

  • Speech-02 – MiniMax 推出的新一代文本转语音模型
    Speech-02 – MiniMax 推出的新一代文本转语音模型

    Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。

    AI教程资讯 2023-04-14

  • Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型
    Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

    Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3 41亿,生成速度更快,能在移动设备上快速生成音频,如鼓点循环、音效等。

    AI教程资讯 2023-04-14

最新录入 更多+
确定