FaceShot是什么
FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱动视频,或作为插件与任何地标驱动的动画模型兼容,显著提升整体性能。

来源:爱论文 时间:2025-05-17 10:18:47
FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱动视频,或作为插件与任何地标驱动的动画模型兼容,显著提升整体性能。
FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。
AI教程资讯
2023-04-14
MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。
AI教程资讯
2023-04-14
Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。
AI教程资讯
2023-04-14
Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3 41亿,生成速度更快,能在移动设备上快速生成音频,如鼓点循环、音效等。
AI教程资讯
2023-04-14