FlexiAct – 清华联合腾讯推出的动作迁移模型-爱论文

FlexiAct是什么

FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下，将参考视频中的动作迁移到目标主体上，在空间结构差异较大或跨域的异构场景中，实现精准的动作适配与外观一致性。模型引入轻量级的RefAdapter模块和频率感知动作提取（FAE）模块，解决现有方法在布局、视角和骨架结构差异方面的限制，保持身份一致性。FlexiAct在人物和动物的动作迁移上均表现出色，具有广泛的应用前景。

FlexiAct的主要功能

跨主体动作迁移：支持将动作从一个人物迁移到另一个人物，或从人物迁移到动物。保持外观一致性：在迁移动作的同时，确保目标主体的外观（如服装、发型等）与原始目标图像保持一致。灵活的空间结构适配：在参考视频和目标图像在布局、视角和骨架结构上存在差异时，也能实现动作的自然迁移。

FlexiAct的技术原理

RefAdapter（空间结构适配器）：RefAdapter 是轻量级的图像条件适配器，主要作用是解决参考视频和目标图像之间的空间结构差异问题。在训练过程中随机选择视频帧作为条件图像，最大化空间结构的差异性。让模型能适应不同的姿态、布局和视角，同时保持外观一致性。注入少量可训练参数（如LoRA模块），在CogVideoX-I2V的MMDiT层中实现灵活的空间适配，避免传统方法中严格的约束。频率感知动作提取：FAE 是创新的动作提取模块，直接在去噪过程中完成动作提取，不依赖于独立的时空架构。FAE 观察到在去噪的不同时间步中，模型对运动（低频）和外观细节（高频）的关注程度不同，在早期时间步中，模型更关注运动信息；在后期时间步中，模型更关注外观细节。FAE 基于动态调整注意力权重，优先在早期时间步提取运动信息，在后期时间步关注外观细节，实现精准的动作提取和控制。

FlexiAct的项目地址

项目官网：https://shiyi-zh0408.github.io/projectpages/FlexiAct/GitHub仓库：https://github.com/shiyi-zh0408/FlexiActHuggingFace模型库：https://huggingface.co/shiyi0408/FlexiActarXiv技术论文：https://arxiv.org/pdf/2505.03730