Vidu Q1 – 生数科技推出的高可控视频大模型-爱论文

Vidu Q1是什么

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可控、音效同步可控、画质增强等方面取得了显著成效。Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行精准调整，能在时间轴上打点标注音效类型与时长，同步精度达±0.1秒。能针对模糊区域进行局部超分重建，4K视频放大8倍仍无马赛克。

Vidu Q1的主要功能

精准调整主体属性：用户可通过上传参考图和文字指令，框选视频中的任意角色或物体，精准调整其位置（坐标轴定位）、大小（百分比缩放）、运动轨迹（自定义路径曲线）及动作细节（如“抬手15度”“眨眼频率2秒/次”）。实测显示，同一指令生成10次视频时，角色偏移误差小于5像素，而传统模型通常超过200像素。多主体一致性：在多主体场景中，Vidu Q1 能保持主体间的一致性，确保视频中多个角色或物体的动作、位置等协调统一，这对于制作复杂的多主体视频内容（如动画、影视短剧等）非常关键。音效时间轴控制：用户可在时间轴上打点标注音效类型与时长，如0:00-0:03秒设置风声（强度70%），0:04-0:05秒设置玻璃破碎声（左声道优先）。Vidu Q1 的音效同步精度可达±0.1秒，相比传统AI音效随机匹配，大大增强了视频的沉浸感与感染力。局部超分重建：针对模糊区域进行局部超分重建，4K视频放大8倍仍无马赛克。可手动调节光影强度、材质纹理、景深虚化等，进一步提升视频的视觉质量。

Vidu Q1的技术原理

技术架构：Vidu Q1 基于扩散模型（Diffusion Model）和 U-ViT 架构开发。U-ViT 结合了 Transformer 的可扩展性和长序列建模能力，能处理长达16秒的1080p视频。模型通过视频自编码器减少视频的空间和时间维度，实现高效的训练和推断。多模态融合：Vidu Q1 融合了文本、图像和视频等多种模态的信息，通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。使 Vidu Q1 能生成具有高度一致性和动态性的视频。自动生成与标注：为了应对大规模视频训练数据的标注问题，Vidu Q1 使用了高性能的视频标题生成器来自动标注训练视频。在推断过程中，应用了重新标题技术，将用户输入重新表述为更适合模型的形式。可控视频生成的拓展：Vidu Q1 进行了其他可控视频生成的实验，包括边缘检测到视频生成、视频预测和主体驱动生成等。实验展示了 Vidu Q1 在不同应用场景中的潜力。

Vidu Q1的应用场景

影视制作：Vidu Q1 可快速生成高质量的视频内容，大大缩短制作周期并降低成本。多镜头生成能力和对时空一致性的把控，为特效制作、场景剪辑等提供了便利。广告宣传：Vidu Q1 能快速生成多种风格和主题的视频广告，满足不同客户的需求。可根据用户的兴趣和行为数据，实现精准投放和个性化推荐，提高广告的转化率和效果。动画制作：Vidu Q1 的多主体一致性控制能力在动画制作中具有重要价值，能确保角色在不同视角下的细节一致性，减轻动画师的工作负担。