当前位置: 网站首页 >AI教程资讯 >正文

FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

来源:爱论文 时间:2025-05-05 19:35:00

FunAudioLLM是什么

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能

SenseVoice模型:专注于多语言的高精度语音识别。支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。具备情感识别功能,能够辨识多种人机交互事件。提供轻量级和大型两个版本,适应不同应用场景。CosyVoice模型:专注于自然语音生成,支持多语言、音色和情感控制。能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。支持跨语种语音生成和细粒度的情感控制。

FunAudioLLM的项目地址

项目官网:https://fun-audio-llm.github.io/CosyVoice 在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300MSenseVoice 在线体验:https://www.modelscope.cn/studios/iic/SenseVoiceGitHub仓库:https://github.com/FunAudioLLMarXiv技术论文:https://arxiv.org/abs/2407.04051

FunAudioLLM的应用场景

开发者和研究人员:使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。企业用户:在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM,提高效率和用户体验。内容创作者:使用FunAudioLLM生成有声读物或播客,丰富内容形式,吸引更多听众。教育领域:用于语言学习、听力训练等教育应用,提高学习效率和兴趣。残障人士:帮助视障人士通过语音交互获取信息,提升生活便利性。
上一篇:Chameleon – Meta推出的图文混合多模态开源模型
相关资讯 更多+
  • FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
    FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

    FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。

    AI教程资讯 2023-04-14

  • Chameleon – Meta推出的图文混合多模态开源模型
    Chameleon – Meta推出的图文混合多模态开源模型

    Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态模型。拥有 34B 参数,能生成文本和图像内容。

    AI教程资讯 2023-04-14

  • Mem0 – 一款开源的大语言模型记忆增强工具
    Mem0 – 一款开源的大语言模型记忆增强工具

    Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断进化的响应。

    AI教程资讯 2023-04-14

  • STORM AI – 斯坦福大学推出的开源AI写作工具
    STORM AI – 斯坦福大学推出的开源AI写作工具

    STORM AI 是斯坦福大学推出的开源AI写作工具,可在几秒钟内将一个主题转换为长篇文章 研究论文,完全免费,是 Perplexity Pages 的一种 替代品 。STORM AI 利用大语言模型(LLM)进行多角度提问和模拟专家对话,以生成深入且准确的内容。

    AI教程资讯 2023-04-14

最新录入 更多+
确定