当前位置: 网站首页 >AI教程资讯 >正文

LivePortrait – 快手推出的开源人像动画生成框架

来源:爱论文 时间:2025-05-05 17:30:23

LivePortrait是什么

LivePortrait是快手推出的开源人像动画生成框架,专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策略,提升了模型的泛化能力和动作控制精度。LivePortrait在RTX 4090 GPU上的单帧生成速度极快,达到12.8毫秒,且具有进一步优化潜力。开源社区对其反响热烈,LivePortrait的GitHub页面提供了详细的使用指南和资源。

LivePortrait的主要功能

表情和姿态迁移:LivePortrait能够将驱动视频中的表情和姿态实时迁移到静态或动态人像上,生成具有丰富表情的视频。高效率:该框架在RTX 4090 GPU上单帧生成速度可达12.8毫秒,展现出极高的处理速度。泛化能力:通过视频-图片混合训练策略和大规模高质量训练数据,LivePortrait具备良好的泛化性,能够适应不同风格和身份的人像。可控性:利用隐式关键点和轻量级MLP网络,LivePortrait增强了对动画生成过程的控制能力。多风格支持:LivePortrait能够处理多种风格的人像,包括真人和风格化(如动漫)人像。高分辨率动画生成:LivePortrait支持生成高分辨率的动画,提供更清晰的视觉效果。贴合和重定向模块:设计了贴合模块和眼部、嘴部重定向模块,以适应裁切、多人合照等复杂场景,避免像素错位。

LivePortrait的技术原理

基础模型训练:在第一阶段,主要对外观提取器、运动提取器、扭曲模块和解码器进行优化,模型都是从头开始训练的。拼接和重定向模块训练:在第一阶段训练好基础模型后,会冻结外观提取器、运动提取器、扭曲模块和解码器,在第二阶段保持不变。在第二阶段,仅对拼接模块和重定向模块进行优化。视频-图像混合训练:LivePortrait 将每张图片视为一帧视频片段,并同时在视频和图片上训练模型,提升模型的泛化能力。升级的网络结构:LivePortrait 将规范隐式关键点估计网络、头部姿态估计网络和表情变形估计网络统一为一个单一模型,并采用ConvNeXt-V2-Tiny为其结构,直接估计输入图片的规范隐式关键点、头部姿态和表情变形。关键点引导的隐式关键点优化:引入2D关键点来捕捉微表情,用关键点引导的损失作为隐式关键点优化的引导。级联损失函数:采用face vid2vid的隐式关键点不变损失、关键点先验损失、头部姿态损失和变形先验损失,并施加感知和GAN损失,提升纹理质量。

LivePortrait的项目地址

项目官网:https://liveportrait.github.io/GitHub仓库:https://github.com/KwaiVGI/LivePortraitHugging Face模型库:https://huggingface.co/spaces/KwaiVGI/LivePortraitarXiv技术论文:https://arxiv.org/pdf/2407.03168

LivePortrait的应用场景

社交媒体内容创作:用户可将自己的照片或视频转换成动态内容,用于社交媒体平台,增加互动性和吸引力。虚拟主播和直播:用LivePortrait技术,可以创建虚拟形象进行直播或视频制作,无需真人出镜,适用于游戏直播、教育讲解等场景。影视和动画制作:在影视后期制作中,LivePortrait可用于角色的表情捕捉和动画生成,提高制作效率,降低成本。广告和营销:企业可以用LivePortrait技术制作吸引人的广告视频,动态的人物形象来吸引潜在客户的注意力。
上一篇:Llama3.1 – Meta最新发布的最强开源AI模型
相关资讯 更多+
  • LivePortrait – 快手推出的开源人像动画生成框架
    LivePortrait – 快手推出的开源人像动画生成框架

    LivePortrait是快手推出的开源人像动画生成框架,专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策略,提升了模型的泛化能力和动作控制精度。

    AI教程资讯 2023-04-14

  • Llama3.1 – Meta最新发布的最强开源AI模型
    Llama3.1 – Meta最新发布的最强开源AI模型

    Llama 3 1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3 1支持128K的上下文长度,能够处理长文本并具备多语言翻译能力。在多个AI基准测试中表现卓越,尤其在数学、推理和长文本处理方面,与市场上顶尖的闭源模型如GPT-4o和Claude 3 5 Sonnet相媲美。

    AI教程资讯 2023-04-14

  • GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型
    GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型

    GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型,支持高达64k tokens的长文本输出,相当于约200页小说。相较于原GPT-4o模型,输出能力提升16倍,但输入上限降至64k tokens,满足用户对更长文本处理的需求。

    AI教程资讯 2023-04-14

  • MindSearch – 上海人工智能实验室推出的AI搜索框架
    MindSearch – 上海人工智能实验室推出的AI搜索框架

    MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2 5 7B对话模型,MindSearch能在3分钟内从300多个网页中搜集有效信息,完成通常需要人类3小时的任务。

    AI教程资讯 2023-04-14

最新录入 更多+
确定