VITA-Audio是什么
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在语音识别(ASR)、文本转语音(TTS)及口语问答(SQA)等任务的基准测试中表现优异。

来源:爱论文 时间:2025-05-12 11:33:31
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在语音识别(ASR)、文本转语音(TTS)及口语问答(SQA)等任务的基准测试中表现优异。
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。
AI教程资讯
2023-04-14
Parakeet TDT 0 6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频。
AI教程资讯
2023-04-14
FunGPT 是基于 InternLM2 5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。
AI教程资讯
2023-04-14
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。
AI教程资讯
2023-04-14