Dolphin – 清华联合海天瑞声推出的语音识别大模型-爱论文

Dolphin是什么

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别，中文语种涵盖22种方言（含普通话），能精准识别不同地区的语言特点。模型训练数据总时长21.2万小时，高质量专有数据13.8万小时，开源数据7.4万小时。在性能上，Dolphin的词错率（WER）显著低于Whisper同等尺寸模型，如base版本平均WER降低63.1%，small版本降低68.2%。采用CTC-Attention架构，结合E-Branchformer编码器和Transformer解码器，通过4倍下采样层加速计算，保留关键语音信息。

Dolphin的主要功能

多语言及方言识别：Dolphin 支持 40 种东方语言的语音识别，涵盖范围广泛，能满足不同语言环境下的语音识别需求。高精度语音转文字：Dolphin 能将语音信号高效准确地转换为文字内容。在多种语言和方言的语音识别任务中都能保持较高的准确率，有效减少了语音转文字过程中的错误和误解。自定义语言和地区设置：用户可以根据实际需求，灵活指定语音识别的语言和地区。Dolphin 采用两级语种标签系统，第一个标签指定语种（如表示中文），第二个标签指定地区（如表示中国）。使模型能精准捕捉同一种语言内不同方言和口音之间的差异，以及同一地区内不同语言之间的相似性，提高模型在特定语言和地区环境下的识别效果，增强其泛化能力。开源支持与二次开发：Dolphin 的 base 与 small 版本模型与推理代码全面开源，为开发者提供了极大的便利。开源特性使得开发者可以根据自身需求对模型进行二次开发和优化，例如针对特定应用场景进行模型微调、扩展模型的功能等，满足个性化需求，推动语音识别技术在更多领域的应用和创新。方便快捷的使用方式：Dolphin 提供了多种使用方式，包括命令行调用和 Python 接口调用。用户可以通过简单的命令行指令快速启动语音识别任务，也可以在 Python 环境中灵活调用模型进行语音处理和分析，方便与其他应用程序或系统进行集成，提高开发效率和应用的灵活性。

Dolphin的技术原理

CTC-Attention 架构：Dolphin 采用 CTC-Attention 架构，结合了 CTC（Connectionist Temporal Classification）的序列建模能力和注意力机制的上下文捕捉能力。能在处理复杂的音频输入时，有效捕捉语音信息的细微变化，保持高效的处理速度，提升模型的识别准确性和效率。E-Branchformer 编码器：E-Branchformer 编码器采用并行分支结构，能更有效地捕捉输入语音信号的局部和全局依赖关系。为模型提供了更丰富的特征表示，使模型能更好地理解语音信号中的复杂模式，提高识别的准确性。Transformer 解码器：Dolphin 的解码器部分采用了 Transformer 架构。Transformer 在序列到序列任务中表现出色，能生成高质量的文本输出。通过自注意力机制，能有效地捕捉文本中的长距离依赖关系，确保最终输出的文本质量和连贯性。4 倍下采样层：为了进一步提高训练效率和性能，Dolphin 引入了 4 倍下采样层。可以减少输入特征的序列长度，加速计算过程，保留关键的语音信息，确保模型的识别效果不受影响。两级语种标签系统：Dolphin 引入了创新性的两级语种标签系统。第一个标签指定语种（例如表示中文），第二个标签指定地区（例如表示中国）。使模型能捕捉同一种语言内不同方言和口音之间的差异，以及同一地区内不同语言之间的相似性，提高了模型区分密切相关的方言的能力，增强泛化能力。

Dolphin的项目地址

Github仓库：https://github.com/DataoceanAI/DolphinHuggingFace模型库：https://huggingface.co/DataoceanAIarXiv技术论文：https://arxiv.org/pdf/2503.20212

Dolphin的应用场景

会议记录：自动将会议中的语音内容转换为文字记录，提高工作效率。语音输入法：在智能设备上，用户可以通过语音输入文字，减少手动输入的麻烦，提升输入速度和便捷性。智能语音助手：支持多种语言和方言，能更好地理解用户的语音指令，提供更准确的反馈，减少因方言或口音导致的误解。智能家居：用户可以通过语音控制智能家居设备，如灯光、空调等，提升家居的智能化和便捷性。新闻媒体：快速将新闻采访、播客等语音内容转换为文字，方便编辑和发布。语言学习：支持多种语言和方言的识别，可以帮助学生练习发音和语言表达。