Qwen3 – 阿里通义开源的新一代混合推理模型系列-爱论文

Qwen3是什么

Qwen3 是阿里巴巴推出的新一代大型语言模型，Qwen3 支持“思考模式”和“非思考模式”两种工作方式，思考模式模型会逐步推理，经过深思熟虑后给出最终答案，适合复杂问题。非思考模式模型提供快速、近乎即时的响应，适用于简单问题。Qwen3 支持 119 种语言和方言，相比前代的 29 种语言，语言能力大幅提升。Qwen3 优化了编码和 Agent 能力，支持 MCP 协议，能更好地与外部工具和数据源集成。Qwen3 的数据集规模达到约 36 万亿个 token，是 Qwen2.5 的两倍。采用四阶段训练流程，包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。Qwen3 系列模型采用 Apache 2.0 协议开源，全球开发者、研究机构和企业均可免费下载并商用。

Qwen3的主要功能

混合推理模式：Qwen3 支持“思考模式”和“非思考模式”两种工作方式。思考模式适合复杂问题，模型会逐步推理后再给出答案；非思考模式提供快速、近乎即时的响应，适合简单问题。让用户可以根据任务的复杂程度灵活控制模型的推理过程，实现成本效益和推理质量的平衡。多语言支持：Qwen3 支持 119 种语言和方言，包括英语、法语、中文（简体和繁体）、粤语等，极大地拓展了其国际应用范围。增强的 Agent 能力：Qwen3 优化了编码和 Agent 能力，支持 MCP 协议，能与外部工具进行高效交互。结合 Qwen-Agent 框架，可以大大降低编码复杂性，实现高效的手机及电脑 Agent 操作等任务。多种模型配置：Qwen3 提供了多种模型配置，包括两个 MoE 模型（Qwen3-235B-A22B 和 Qwen3-30B-A3B）以及六个 Dense 模型（Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B），覆盖了从小型设备到大规模企业部署的各种场景。

Qwen3的技术原理

大规模预训练：Qwen3 的预训练数据量达到约 36 万亿个 token，是 Qwen2.5 的两倍，涵盖了 119 种语言和方言。预训练过程分为三个阶段：第一阶段（S1）：模型在超过 30 万亿个 token 上进行了预训练，上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。第二阶段（S2）：通过增加知识密集型数据（如 STEM、编程和推理任务）的比例来改进数据集，随后模型又在额外的 5 万亿个 token 上进行了预训练。第三阶段：使用高质量的长上下文数据将上下文长度扩展到 32K token，确保模型能够有效地处理更长的输入。优化的后训练：为了开发能同时具备思考推理和快速响应能力的混合模型，Qwen3 实施了四阶段的训练流程：长思维链冷启动（Long Chain-of-Thought Cold Start）：使用多样的长思维链数据对模型进行微调，涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域。长思维链强化学习（Reasoning-based Reinforcement Learning）：利用基于规则的奖励来增强模型的探索和钻研能力。思维模式融合（Thinking Mode Fusion）：在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调，将非思考模式整合到思考模型中。通用强化学习（General Reinforcement Learning）：在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用强化学习，进一步增强模型的通用能力并纠正不良行为。多种模型配置：Qwen3 提供了多种模型配置，包括：MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B。Dense 模型：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。覆盖了从小型设备到大规模企业部署的各种场景。性能优化：Qwen3 的性能大幅提升，同时部署成本大幅下降。例如，仅需 4 张 H20 即可部署满血版，显存占用仅为性能相近模型的三分之一。

Qwen3的项目地址

项目官网：https://qwenlm.github.io/blog/qwen3/Github仓库：https://github.com/QwenLM/Qwen3HuggingFace模型库：https://huggingface.co/collections/Qwen/qwen3

Qwen3的性能效果

Qwen3 在多个基准测试中表现出色，例如：

AIME25：Qwen3 获得了 81.5 分，刷新开源纪录。LiveCodeBench：Qwen3 超过 70 分，表现甚至超过 Grok3。ArenaHard：Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

Qwen3的应用场景

文本生成：Qwen3 能生成连贯、自然的长文本，适用于自动化写作、新闻生成、博客文章创作等任务。可以基于给定的提示生成完整的文章或故事。机器翻译：Qwen3 支持 119 种语言和方言，在多语言翻译任务中表现出色。可以处理多种语言对之间的翻译任务，提供高质量的翻译结果。法律文书自动生成：Qwen3 可以生成合同、法律意见书、诉讼文书等法律文件。通过在法律领域的语料进行微调，Qwen3 能生成符合法律规定、格式化的文书。技术文档编写：Qwen3 能生成详细的技术文档、产品说明、用户手册等。通过在技术领域的语料进行微调，Qwen3 可以帮助开发人员和技术支持团队自动化生成符合行业标准的文档。医疗领域：Qwen3 可以用于生成医学报告、诊断建议等。通过在医学文献、病历等数据上的微调，Qwen3 能生成符合医学标准的专业报告。可以辅助医生在诊断过程中自动生成病例记录。法律领域：Qwen3 通过微调法律领域的文献、判例和法规，可以生成高度专业化的法律文件。