VITA是什么
VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了双语指令微调,支持自然人机交互,无需唤醒词即可响应。VITA的开源属性为学术和工业界提供了重要资源,推动了多模态理解和交互技术的发展。

来源:爱论文 时间:2025-05-04 07:33:16
VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了双语指令微调,支持自然人机交互,无需唤醒词即可响应。VITA的开源属性为学术和工业界提供了重要资源,推动了多模态理解和交互技术的发展。
VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了双语指令微调,支持自然人机交互,无需唤醒词即可响应。
AI教程资讯
2023-04-14
AI Scientist是Sakana AI推出的首个全自动科学发现AI系统。能独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程。
AI教程资讯
2023-04-14
ControlNeXt是一种新型的AI图像和视频可控生成框架,由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术,大幅降低计算资源和训练难度,同时保持生成内容的高质量和多样性。
AI教程资讯
2023-04-14
FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM),能根据文本提示生成动态丰富且时间上连贯的视频内容。FancyVideo突破极大地提升了文本到视频(Text-to-Video, T2V)生成任务的质量和自然度。
AI教程资讯
2023-04-14