当前位置: 网站首页 >AI教程资讯 >正文

FlexiAct – 清华联合腾讯推出的动作迁移模型

来源:爱论文 时间:2025-05-13 10:58:21

FlexiAct是什么

FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。模型引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,解决现有方法在布局、视角和骨架结构差异方面的限制,保持身份一致性。FlexiAct在人物和动物的动作迁移上均表现出色,具有广泛的应用前景。

FlexiAct的主要功能

跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,或从人物迁移到动物。保持外观一致性:在迁移动作的同时,确保目标主体的外观(如服装、发型等)与原始目标图像保持一致。灵活的空间结构适配:在参考视频和目标图像在布局、视角和骨架结构上存在差异时,也能实现动作的自然迁移。

FlexiAct的技术原理

RefAdapter(空间结构适配器):RefAdapter 是轻量级的图像条件适配器,主要作用是解决参考视频和目标图像之间的空间结构差异问题。在训练过程中随机选择视频帧作为条件图像,最大化空间结构的差异性。让模型能适应不同的姿态、布局和视角,同时保持外观一致性。注入少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现灵活的空间适配,避免传统方法中严格的约束。频率感知动作提取:FAE 是创新的动作提取模块,直接在去噪过程中完成动作提取,不依赖于独立的时空架构。FAE 观察到在去噪的不同时间步中,模型对运动(低频)和外观细节(高频)的关注程度不同,在早期时间步中,模型更关注运动信息;在后期时间步中,模型更关注外观细节。FAE 基于动态调整注意力权重,优先在早期时间步提取运动信息,在后期时间步关注外观细节,实现精准的动作提取和控制。

FlexiAct的项目地址

项目官网:https://shiyi-zh0408.github.io/projectpages/FlexiAct/GitHub仓库:https://github.com/shiyi-zh0408/FlexiActHuggingFace模型库:https://huggingface.co/shiyi0408/FlexiActarXiv技术论文:https://arxiv.org/pdf/2505.03730

FlexiAct的应用场景

影视制作:快速生成逼真的角色动作,减少拍摄成本。游戏开发:为游戏角色生成多样化动作,提升游戏体验。广告营销:生成虚拟代言人动作,增强广告吸引力。教育培训:生成教学和康复训练动作,辅助学习和恢复。娱乐互动:支持用户创作有趣视频,提升娱乐体验。
上一篇:Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器
相关资讯 更多+
  • FlexiAct – 清华联合腾讯推出的动作迁移模型
    FlexiAct – 清华联合腾讯推出的动作迁移模型

    FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。

    AI教程资讯 2023-04-14

  • Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器
    Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器

    Klavis AI 是一个开源的 MCP(Multimodal Communication Protocol,多模态通信协议)集成平台,帮助 AI 应用快速接入生产级的 MCP 服务器和客户端。平台提供稳定可靠的 MCP 服务器,支持多种工具集成和定制化服务,具备内置的身份验证功能,保障开发人员和终端用户的安全。

    AI教程资讯 2023-04-14

  • oli – 开源的终端AI编程助手,支持代码辅助与解释
    oli – 开源的终端AI编程助手,支持代码辅助与解释

    oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React Ink 前端的交互式终端界面。oli 支持多种云 API及本地语言模型(基于 Ollama)。

    AI教程资讯 2023-04-14

  • Mistral Medium 3 – Mistral AI推出的多模态语言模型
    Mistral Medium 3 – Mistral AI推出的多模态语言模型

    Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近甚至达到Claude Sonnet 3 7模型的性能水平,成本仅为后者的1 8(每百万Token的输入成本为0 4美元,输出成本为2美元)。

    AI教程资讯 2023-04-14

最新录入 更多+
确定