当前位置: 网站首页 >AI教程资讯 >正文

Qwen3 – 阿里通义开源的新一代混合推理模型系列

来源:爱论文 时间:2025-05-14 16:49:13

Qwen3是什么

Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题。非思考模式模型提供快速、近乎即时的响应,适用于简单问题。Qwen3 支持 119 种语言和方言,相比前代的 29 种语言,语言能力大幅提升。Qwen3 优化了编码和 Agent 能力,支持 MCP 协议,能更好地与外部工具和数据源集成。Qwen3 的数据集规模达到约 36 万亿个 token,是 Qwen2.5 的两倍。采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。Qwen3 系列模型采用 Apache 2.0 协议开源,全球开发者、研究机构和企业均可免费下载并商用。

Qwen3的主要功能

混合推理模式:Qwen3 支持“思考模式”和“非思考模式”两种工作方式。思考模式适合复杂问题,模型会逐步推理后再给出答案;非思考模式提供快速、近乎即时的响应,适合简单问题。让用户可以根据任务的复杂程度灵活控制模型的推理过程,实现成本效益和推理质量的平衡。多语言支持:Qwen3 支持 119 种语言和方言,包括英语、法语、中文(简体和繁体)、粤语等,极大地拓展了其国际应用范围。增强的 Agent 能力:Qwen3 优化了编码和 Agent 能力,支持 MCP 协议,能与外部工具进行高效交互。结合 Qwen-Agent 框架,可以大大降低编码复杂性,实现高效的手机及电脑 Agent 操作等任务。多种模型配置:Qwen3 提供了多种模型配置,包括两个 MoE 模型(Qwen3-235B-A22B 和 Qwen3-30B-A3B)以及六个 Dense 模型(Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B),覆盖了从小型设备到大规模企业部署的各种场景。

Qwen3的技术原理

大规模预训练:Qwen3 的预训练数据量达到约 36 万亿个 token,是 Qwen2.5 的两倍,涵盖了 119 种语言和方言。预训练过程分为三个阶段:第一阶段(S1):模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。第二阶段(S2):通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。第三阶段:使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。优化的后训练:为了开发能同时具备思考推理和快速响应能力的混合模型,Qwen3 实施了四阶段的训练流程:长思维链冷启动(Long Chain-of-Thought Cold Start):使用多样的长思维链数据对模型进行微调,涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域。长思维链强化学习(Reasoning-based Reinforcement Learning):利用基于规则的奖励来增强模型的探索和钻研能力。思维模式融合(Thinking Mode Fusion):在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。通用强化学习(General Reinforcement Learning):在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用强化学习,进一步增强模型的通用能力并纠正不良行为。多种模型配置:Qwen3 提供了多种模型配置,包括:MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。Dense 模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。 覆盖了从小型设备到大规模企业部署的各种场景。性能优化:Qwen3 的性能大幅提升,同时部署成本大幅下降。例如,仅需 4 张 H20 即可部署满血版,显存占用仅为性能相近模型的三分之一。

Qwen3的项目地址

项目官网:https://qwenlm.github.io/blog/qwen3/Github仓库:https://github.com/QwenLM/Qwen3HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3

Qwen3的性能效果

Qwen3 在多个基准测试中表现出色,例如:

AIME25:Qwen3 获得了 81.5 分,刷新开源纪录。LiveCodeBench:Qwen3 超过 70 分,表现甚至超过 Grok3。ArenaHard:Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

Qwen3的应用场景

文本生成:Qwen3 能生成连贯、自然的长文本,适用于自动化写作、新闻生成、博客文章创作等任务。可以基于给定的提示生成完整的文章或故事。机器翻译:Qwen3 支持 119 种语言和方言,在多语言翻译任务中表现出色。可以处理多种语言对之间的翻译任务,提供高质量的翻译结果。法律文书自动生成:Qwen3 可以生成合同、法律意见书、诉讼文书等法律文件。通过在法律领域的语料进行微调,Qwen3 能生成符合法律规定、格式化的文书。技术文档编写:Qwen3 能生成详细的技术文档、产品说明、用户手册等。通过在技术领域的语料进行微调,Qwen3 可以帮助开发人员和技术支持团队自动化生成符合行业标准的文档。医疗领域:Qwen3 可以用于生成医学报告、诊断建议等。通过在医学文献、病历等数据上的微调,Qwen3 能生成符合医学标准的专业报告。可以辅助医生在诊断过程中自动生成病例记录。法律领域:Qwen3 通过微调法律领域的文献、判例和法规,可以生成高度专业化的法律文件。
上一篇:NodeRAG – 开源基于异构图的智能检索与生成系统
相关资讯 更多+
  • Qwen3 – 阿里通义开源的新一代混合推理模型系列
    Qwen3 – 阿里通义开源的新一代混合推理模型系列

    Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题。非思考模式模型提供快速、近乎即时的响应,适用于简单问题。

    AI教程资讯 2023-04-14

  • NodeRAG – 开源基于异构图的智能检索与生成系统
    NodeRAG – 开源基于异构图的智能检索与生成系统

    NodeRAG 是基于异构图的检索增强生成(Retrieval-Augmented Generation,RAG)系统。通过构建包含多种节点类型的异构图,将文档信息和语言模型生成的见解整合在一起,支持多跳检索和细粒度信息提取。

    AI教程资讯 2023-04-14

  • Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
    Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型

    Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复出高分辨率、清晰的视频。

    AI教程资讯 2023-04-14

  • Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型
    Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型

    Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基于模仿学习、自我探索和自我修正的三阶段训练方法,生成多样化的思考过程(如情境分析、空间推理、自我反思等)。

    AI教程资讯 2023-04-14

最新录入 更多+
确定