DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架-爱论文

DICE-Talk是什么

DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架，支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块，基于情感库捕获不同情感之间的关系，提升情感生成的准确性和多样性。框架设计情感判别目标，基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明，DICE-Talk在情感准确性、对口型和视觉质量方面均优于现有技术。

DICE-Talk的主要功能

情感化动态肖像生成：根据输入的音频和参考图像，生成具有特定情感表达的动态肖像视频。身份保持：在生成情感化视频时，保持输入参考图像的身份特征，避免身份信息的泄露或混淆。高质量视频生成：生成的视频在视觉质量、唇部同步和情感表达方面均达到较高水平。泛化能力：能适应未见过的身份和情感组合，具有良好的泛化能力。用户控制：用户输入特定的情感目标，控制生成视频的情感表达，实现高度的用户自定义。多模态输入：支持多种输入模态，包括音频、视频和参考图像。

DICE-Talk的技术原理

解耦身份与情感：基于跨模态注意力机制联合建模音频和视觉情感线索，将情感表示为身份无关的高斯分布。用对比学习（如InfoNCE损失）训练情感嵌入器，确保相同情感的特征在嵌入空间中聚集，不同情感的特征则分散。情感关联增强：情感库是可学习的模块，存储多种情感的特征表示。用向量量化和基于注意力的特征聚合，学习情感之间的关系。情感库存储单一情感的特征，学习情感之间的关联，帮助模型更好地生成其他情感。情感判别目标：在扩散模型的生成过程中，基于情感判别器确保生成视频的情感一致性。情感判别器与扩散模型联合训练，确保生成的视频在情感表达上与目标情感一致，保持视觉质量和唇部同步。扩散模型框架：从高斯噪声开始，逐步去噪生成目标视频。基于变分自编码器（VAE）将视频帧映射到潜在空间，在潜在空间中逐步引入高斯噪声，基于扩散模型逐步去除噪声，生成目标视频。在去噪过程中，扩散模型基于跨模态注意力机制，结合参考图像、音频特征和情感特征，引导视频生成。

DICE-Talk的项目地址

项目官网：https://toto222.github.io/DICE-Talk/GitHub仓库：https://github.com/toto222/DICE-TalkarXiv技术论文：https://arxiv.org/pdf/2504.18087

DICE-Talk的应用场景

数字人与虚拟助手：为数字人和虚拟助手赋予丰富的情感表达，与用户交互时更加自然和生动，提升用户体验。影视制作：在影视特效和动画制作中，快速生成具有特定情感的动态肖像，提高制作效率，降低制作成本。虚拟现实与增强现实：在VR/AR应用中，生成与用户情感互动的虚拟角色，增强沉浸感和情感共鸣。在线教育与培训：创建具有情感反馈的教学视频，让学习内容更加生动有趣，提高学习效果。心理健康支持：开发情感化虚拟角色，用在心理治疗和情感支持，帮助用户更好地表达和理解情感。