当前位置: 网站首页 >AI教程资讯 >正文

OSUM – 西北工业大学开源的语音理解模型

来源:爱论文 时间:2025-03-15 14:19:28

OSUM是什么

OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。OSUM基于“ASR+X”多任务训练策略,用模态对齐和目标任务的优化,实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练,性能在多项任务中表现优异,在中文ASR和多任务泛化能力上表现出色。

OSUM

OSUM的主要功能

语音识别:将语音转换为文本,支持多种语言和方言。带时间戳的语音识别:在识别语音内容的同时,输出每个单词或短语的起止时间。语音事件检测:识别语音中的特定事件(如笑声、咳嗽、背景噪音等)。语音情感识别:分析语音中的情感状态(如高兴、悲伤、愤怒等)。说话风格识别:识别说话者的风格(如新闻播报、客服对话、日常口语等)。说话者性别分类:判断说话者的性别(男性或女性)。说话者年龄预测:预测说话者的年龄范围(如儿童、成年人、老年人)。语音转文本聊天:将语音输入转化为自然语言回复,用在对话系统。

OSUM的技术原理

Speech Encoder:用Whisper-Medium模型(769M参数),负责将语音信号编码为特征向量。Adaptor:包含3层卷积和4层Transformer,用在适配语音特征与语言模型的输入。LLM(语言模型):基于Qwen2-7B-Instruct,用LoRA(Low-Rank Adaptation)微调,适应多任务需求。多任务训练策略:ASR+X训练范式:同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等)。基于共享特征和优化目标,提升模型的泛化能力和稳定性。自然语言Prompt:基于为LLM提供不同的自然语言提示(Prompt),引导模型执行不同的任务。数据处理与训练:约5万小时的多样化语音数据进行多任务训练,数据集包括开源数据和内部处理数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,然后与LLM结合,进行进一步的监督训练。

OSUM的项目地址

GitHub仓库:https://github.com/ASLP-lab/OSUMarXiv技术论文:https://arxiv.org/pdf/2501.13306v2在线体验Demo:https://huggingface.co/spaces/ASLP-lab/OSUM

OSUM的应用场景

智能客服:基于语音识别和情感分析,自动理解客户需求并提供个性化服务。智能家居:识别语音指令和背景事件,优化语音交互体验。教育工具:分析学生语音,提供个性化学习反馈。心理健康监测:检测语音中的情绪变化,辅助心理健康评估。多媒体内容创作:自动生成字幕和标签,辅助视频编辑。
上一篇:Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统
相关资讯 更多+
  • OSUM – 西北工业大学开源的语音理解模型
    OSUM – 西北工业大学开源的语音理解模型

    OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。

    AI教程资讯 2023-04-14

  • Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统
    Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

    Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。

    AI教程资讯 2023-04-14

  • AI co-scientist – 谷歌推出多智能体协作的 AI 科研助手
    AI co-scientist – 谷歌推出多智能体协作的 AI 科研助手

    AI co-scientist 是谷歌推出的多智能体AI系统,作为虚拟科研机器人,协助科研人员搞定各种繁琐的科研任务,包括科研选题、文献检索和实验设计。AI co-scientist 基于Gemini 2 0 赋能,用生成、反思、排序、进化等多个智能体协同工作,模拟科学研究全流程。

    AI教程资讯 2023-04-14

  • 协和·太初 – 北京协和与中科院共同推出的罕见病领域AI大模型
    协和·太初 – 北京协和与中科院共同推出的罕见病领域AI大模型

    协和·太初是北京协和医院与中国科学院自动化研究所共同研发的国内首个罕见病领域AI大模型,正式进入临床应用。模型基于我国罕见病知识库的多年积累和中国人群基因检测数据,是国际首个符合中国人群特点的罕见病大模型。

    AI教程资讯 2023-04-14

最新录入 更多+
确定