KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架-爱论文

KeySync是什么

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架，支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现，首先生成关键帧捕捉音频的关键唇部动作，基于插值生成平滑的过渡帧。KeySync 引入新的掩码策略，有效减少输入视频的表情泄露，用视频分割模型自动处理遮挡问题。KeySync 在视觉质量、时间连贯性和唇部同步准确性方面均优于现有方法，适用于自动配音等实际应用。

KeySync的主要功能

高分辨率口型同步：生成与输入音频精确对齐的高清（512×512）视频，适用于实际应用。减少表情泄露：减少输入视频中的表情泄露，提升同步效果。遮挡处理：在推理时自动识别、排除遮挡物（如手部、物体等），确保生成视频的自然性。提升视觉质量：在多个量化指标和用户研究中表现出色，生成的视频具有更高的清晰度和连贯性。

KeySync的技术原理

两阶段生成框架：关键帧生成：首先生成一组稀疏的关键帧，捕捉音频中的主要唇部动作，确保每个关键帧准确反映音频的语音内容，同时保留人物身份信息。插值生成：在关键帧之间进行插值，生成平滑、时间连贯的中间帧，实现流畅的唇部动作过渡。潜扩散模型：潜扩散模型在压缩的低维潜空间中进行去噪操作，提高计算效率。逐步去除噪声，将随机噪声逐步转化为结构化的视频数据。掩码策略：基于计算面部关键点，设计覆盖下脸区域的掩码，同时保留必要的上下文信息，防止表情泄露。在推理时，结合预训练的视频分割模型（如 SAM²），自动识别、排除遮挡物，确保生成的唇部区域与遮挡物自然融合。音频与视频对齐：用 HuBERT 音频编码器将原始音频转换为特征表示，基于注意力机制将其嵌入到视频生成模型中，确保生成的唇部动作与音频精确对齐。损失函数：结合潜空间损失和像素空间损失（L2 损失），优化视频生成质量，确保生成的唇部区域与音频对齐。

KeySync的项目地址

项目官网：https://antonibigata.github.io/KeySync/GitHub仓库：https://github.com/antonibigata/keysyncHuggingFace模型库：https://huggingface.co/toninio19/keysyncarXiv技术论文：https://arxiv.org/pdf/2505.00497在线体验Demo：https://huggingface.co/spaces/toninio19/keysync-demo