VideoReward – 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型-爱论文

VideoReward是什么

VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,000条标注数据，涵盖视觉质量、运动质量和文本对齐三个维度，用于优化视频生成模型。奖励模型基于人类反馈，通过**度对齐算法（如Flow-DPO、Flow-RWR）和推理时技术（如Flow-NRG），显著提升视频生成的连贯性和文本对齐效果。Flow-NRG支持用户自定义权重，满足个性化需求。

VideoReward的主要功能

构建大规模偏好数据集：VideoReward包含182,000条标注数据，涵盖视觉质量（VQ）、运动质量（MQ）和文本对齐（TA）三个关键维度，用于捕捉用户对生成视频的偏好。**度奖励模型：基于强化学习，VideoReward引入了三种对齐算法，包括训练时策略（如Flow-DPO和Flow-RWR）和推理时技术（如Flow-NRG），用于优化视频生成。个性化需求支持：Flow-NRG支持用户在推理时为多个目标分配自定义权重，满足个性化的视频质量需求。提升视频生成质量：通过人类反馈，VideoReward能显著提升视频生成的连贯性和与提示文本的对齐效果，优于现有的奖励模型。

VideoReward的技术原理

对齐算法：VideoReward引入了三种对齐算法，这些算法扩展自扩散模型的方法，专门针对基于流的模型设计：Flow-DPO（直接偏好优化）：在训练阶段，直接优化模型以匹配人类偏好的视频对。Flow-RWR（奖励加权回归）：通过奖励加权的方式优化模型，使其更符合人类反馈。Flow-NRG（噪声视频奖励引导）：在推理阶段，直接将奖励引导应用于噪声视频，支持用户为多个目标分配自定义权重，满足个性化需求。人类反馈优化：通过人类反馈，VideoReward能显著提升视频生成的连贯性和与提示文本的对齐效果。实验结果表明，VideoReward在性能上优于现有的奖励模型，Flow-DPO相比Flow-RWR和标准监督微调方法表现更优。

VideoReward的项目地址

项目官网：https://gongyeliu.github.io/videoalign/arXiv技术论文：https://arxiv.org/pdf/2501.13918

VideoReward的应用场景

视频生成质量优化：VideoReward 通过大规模人类偏好数据集和**度奖励模型，显著提升了视频生成的质量，特别是在视觉质量、运动连贯性和文本对齐方面。个性化视频生成：VideoReward 的 Flow-NRG 技术支持用户在推理时为多个目标分配自定义权重，满足个性化的视频质量需求。视频生成模型的训练与微调：VideoReward 提供的**度奖励模型和对齐算法（如 Flow-DPO 和 Flow-RWR）可用于训练和微调视频生成模型。用户偏好分析与研究：VideoReward 的大规模偏好数据集涵盖了视觉质量、运动质量和文本对齐等多个维度。视频内容创作与编辑：在视频内容创作和编辑领域，VideoReward 可以帮助生成更高质量的视频素材，提升创作效率。