Vidu Q1是什么
Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可控、音效同步可控、画质增强等方面取得了显著成效。Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行精准调整,能在时间轴上打点标注音效类型与时长,同步精度达±0.1秒。能针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。

来源:爱论文 时间:2025-04-17 13:04:10
Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可控、音效同步可控、画质增强等方面取得了显著成效。Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行精准调整,能在时间轴上打点标注音效类型与时长,同步精度达±0.1秒。能针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。
Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可控、音效同步可控、画质增强等方面取得了显著成效。Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行精准调整,能在时间轴上打点标注音效类型与时长,同步精度达±0 1秒。
AI教程资讯
2023-04-14
ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。
AI教程资讯
2023-04-14
PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟,通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性,创建出以图像为中心的数字孪生。
AI教程资讯
2023-04-14
EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和中文,提供超过2000种声音,支持基于提示生成带有不同情感(如开心、悲伤、愤怒等)的语音。
AI教程资讯
2023-04-14