VITA-Audio – 开源的端到端多模态语音大模型，低延迟、推理快-爱论文

VITA-Audio是什么

VITA-Audio 是开源的端到端多模态语音大模型，具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测（MCTP）模块，可在首次前向传播中生成音频输出，将生成首个音频标记块的时间大幅缩短，显著降低流式场景下的延迟。采用四阶段渐进式训练策略，在70亿参数规模下，推理速度比相似规模的开源模型快3至5倍，同时在语音识别（ASR）、文本转语音（TTS）及口语问答（SQA）等任务的基准测试中表现优异。

VITA-Audio的主要功能

实时对话功能：VITA-Audio 能在首次前向传播中生成音频输出的多模态大语言模型，实现了极低延迟的实时对话能力。通过轻量级的多模态交叉标记预测（MCTP）模块，模型在单次前向传播中可高效生成多个音频标记，显著降低了流式场景下生成首个音频的延迟。高效推理加速：在70亿参数规模下，VITA-Audio 实现了3至5倍的推理加速。得益于独特的四阶段渐进式训练策略，在最小化语音质量损失的前提下，实现了模型的高效推理。多模态交互能力：VITA-Audio 能理解和处理多种模态的数据，包括音频、文本等。在多模态交互场景中具有广泛的应用潜力，例如在语音助手、智能客服等领域，能提供更加丰富和自然的交互体验。语音生成与识别：VITA-Audio 在自动语音识别（ASR）、文本转语音（TTS）及口语问答（SQA）任务的多项基准测试中，显著优于相似模型规模的开源模型。在语音生成和识别方面具有较高的准确性和效率，能满足不同场景下的语音交互需求。

VITA-Audio的技术原理

多模态交叉标记预测（MCTP）模块：是 VITA-Audio 的关键创新之一。模块能在单次模型前向传播中高效生成多个音频标记，显著降低了流式场景下生成首个音频的延迟，实现极低延迟的实时对话能力。TiCodec 模块：用于将连续语音波形编码成离散 token，以及将离散 token 解码回波形。使语音与文本可以在同一个序列空间中进行统一建模。非自回归（NAR）与自回归（AR）解码器：NAR 解码器一次性预测整句语音 token 的分布，速度快但准确性相对低；AR 解码器则依赖之前生成的 token，生成质量更高但速度慢。VITA-Audio 结合两者，先用 NAR 生成初步语音 token 分布，再由 AR 进行精修，兼顾速度和质量。四阶段渐进式训练策略第一阶段：视觉-语言对齐：通过训练视觉适配器并使用描述性字幕和视觉问答数据微调模型，建立强大的视觉能力。第二阶段：音频输入微调：使用语音转录配对数据训练音频编码器，再用语音问答数据进行微调，使模型能够理解和响应音频输入。第三阶段：音频输出微调：训练音频解码器，实现端到端语音输出，无需外部 TTS 模块。第四阶段：多模态指令微调：进一步优化模型在多模态任务中的表现，提升其对不同模态输入的处理能力。

VITA-Audio的项目地址

Github仓库：https://github.com/VITA-MLLM/VITA-AudioHuggingFace模型库：https://huggingface.co/collections/VITA-MLLM/vita-audioarXiv技术论文：https://arxiv.org/pdf/2505.03739

VITA-Audio的应用场景

智能家居控制：VITA-Audio 能理解语音指令，控制家中的智能设备，如灯光、温度、安全系统等。智能客服：在线客服场景中，VITA-Audio 能同时理解用户的文字描述、图片上传或语音留言，快速准确地回答问题。教育辅助：在线教育平台或学习应用中，VITA-Audio 能辅助学生学习，例如通过分析学生上传的学习资料（如课本图片、教学视频等），结合学生的提问，提供知识点讲解、习题解答等服务。医疗辅助：VITA-Audio 可以帮助医生解读医学影像、分析病历数据，结合最新的医学研究文献，提供辅助诊断和治疗方案建议。内容创作：在媒体公司或自媒体平台，VITA-Audio 可以辅助内容创作者生成文章、视频脚本等，通过理解创作主题和风格要求，提供创意灵感和写作建议。