Aero-1-Audio – LMMs-Lab 推出的轻量级音频模型-爱论文

Aero-1-Audio是什么

Aero-1-Audio 是 LMMs-Lab 开发的轻量级音频模型，基于 Qwen-2.5-1.5B 构建，仅包含 1.5 亿参数。专为长音频处理设计，能支持长达 15 分钟的连续音频输入，无需分段，同时保持上下文连贯性。在语音识别（ASR）任务中，Aero-1-Audio 表现出色，准确率高，在复杂音频分析和指令驱动任务方面表现出色。

Aero-1-Audio的主要功能

长音频处理：能处理长达 15 分钟的连续音频，无需分段，保持上下文连贯性，特别适合长篇语音内容的处理。语音识别（ASR）：在语音识别任务中表现出色，能准确将语音转换为文字，适用于实时转写、会议记录、讲座转录等场景。复杂音频分析：支持对语音、音效、音乐等多种音频类型的分析，能理解音频中的语义和情感，适用于音频内容的分类和分析。指令驱动任务：支持指令驱动的音频处理任务，例如根据指令提取音频中的特定信息或执行特定操作，适用于智能语音助手等应用。

Aero-1-Audio的技术原理

轻量级设计与高效性能：Aero-1-Audio 仅包含 1.5 亿参数，规模较小，在多个音频基准测试中表现出色，超越了更大规模的模型，如 Whisper 和 Qwen-2-Audio。高效的训练方法：Aero-1-Audio 的训练数据量相对较小，仅使用了约 50 亿个 tokens（相当于 5 万小时音频），远少于其他大型模型。通过高质量的过滤数据和优化的训练策略，在一天内可完成训练，仅需 16 个 H100 GPU。动态批处理与序列打包技术：Aero-1-Audio 采用了基于 token 长度的动态批处理策略，通过将样本分组到预定义的 token 长度阈值内，显著提高了计算资源利用率。通过序列打包技术结合 Liger 内核融合，模型的 FLOP 利用率从 0.03 提升至 0.34，进一步提高了训练效率。多任务能力：Aero-1-Audio 在语音识别（ASR）任务中表现出色，在音频分析与理解、语音指令跟随和音频场景理解等多个维度上展现了强大的能力。例如，在 AMI、LibriSpeech 和 SPGISpeech 数据集上，词错误率（WER）最低。