深夜开源首个万亿模型K2，压力给到OpenAI，Kimi时刻要来了？-爱论文

没想到，Kimi的首个基础大模型开源这么快就来了。

昨晚，月之暗面正式发布了KimiK2大模型并开源，新模型同步上线并更新了API，价格是16元人民币/百万token输出。

这次发布赶在了最近全球大模型集中发布的风口浪尖，前有xAI的Grok4，下周可能还有谷歌新Gemini和OpenAI开源模型，看起来大模型来到了一个新的技术节点。或许是感受到了 Kimi K2的压力，就在刚刚，奥特曼发推预告了自家的开源模型。不过，网友似乎并不看好。

本次开源的共有两款模型，分别是基础模型Kimi-K2-Base与微调后模型Kimi-K2-Instruct，均可商用。

根据HuggingFace页面数据显示，KimiK2 的下载量在前20分钟便接近了12K。

从LiveCodeBench、AIME2025和GPQA-Diamond等多个基准测试成绩来看，此次KimiK2超过了DeepSeek-V3-0324、Qwen3-235B-A22B等开源模型，成为开源模型新SOTA；同时在多项性能指标上也能赶超GPT-4.1、Claude4Opus等闭源模型，显示出其领先的知识、数学推理与代码能力。

Kimi展示了K2的一些实际应用案例，看起来它能自动理解如何使用工具来完成任务。它可以自动地理解所在的任务环境，决定如何行动，在下达任务指令时，你也不需要像以往那样为智能体列出详细的工作流程。

在完成复杂任务工作时，KimiK2会自动调用多种工具实现能力边界的扩展。昨天上线后，网友们第一时间尝试，发现可以实现不错的效果：

值得关注的是，就在昨天Grok4发布后，人们第一时间测试发现其代码能力飘忽不定，但看起来KimiK2的代码能力经住了初步检验。

网友使用ClaudeCode链接KimiK2，发现效果不错。

从网友第一时间的测试来看，K2代码能力是个亮点，因为价格很低，大家发现它可能是Claude4Sonnet的有力开源平替。有网友直接说K2是代码模型的DeepSeek时刻：

HuggingFace联合创始人ThomasWolf也表示，K2令人难以置信，开源模型正在挑战最新的闭源权重模型。

在技术博客中，Kimi也介绍了K2训练中的一些关键技术。

预训练数据15.5Ttokens

没用传统Adam优化器

首先，为了解决万亿参数模型训练中稳定性不足的问题，KimiK2引入了MuonClip优化器。

Muon优化器作为一种优化算法，可以帮助神经网络在训练过程中更好地收敛，提升模型准确性和性能。今年2月，月之暗面推出了基于Muon优化器的高效大模型Moonlight，证明这类优化器在LLM训练中显著优于当前广泛使用的AdamW优化器。

此次，KimiK2在开发过程中进一步扩展Moonlight架构。其中基于ScalingLaws分析，月之暗面通过减少AttentionHeads数量来提升长上下文效率，同时增加MoE稀疏性来提高token利用效率。然而在扩展中遇到了一个持续存在的挑战：Attentionlogits爆炸会导致训练不稳定，而logit软上限控制和query-key归一化等现有方案对此的效果有限。

针对这一挑战，月之暗面在全新的MuonClip中融入了自己提出的qk-clip技术，在Muon更新后直接重新缩放query和key投影组成的权重矩阵，从源头上控制Attentionlogits的规模，实现稳定的训练过程。

改进后的MuonClip优化器不仅可以扩展到KimiK2这样万亿参数级别的LLM训练，还将大幅度提升token效率。一个更具token效率的优化器更能提升模型智能水平，这正是当前业界（如IlyaSutskever）看重的延续ScalingLaws的另一关键系数。

KimiK2的实验结果证实了这一点：MuonClip能够有效防止logit爆炸，同时保持下游任务的性能。官方称，KimiK2顺利完成15.5Ttokens的预训练，过程中没有出现任何训练尖峰，形成了LLM训练的一套新方法。

Token损失曲线

因此，相较于原始Muon，MuonClip取长补短，进一步放大其在预训练过程中的优势。自大模型技术爆发以来，优化器的探索方向不再是热门，人们习惯于使用Adam，而如果想要进行替换，则需要大量的验证成本。Kimi的全新探索，不知是否会成为新的潮流。

其次，为了解决真实工具交互数据稀缺的难题，KimiK2采用大规模Agentic数据合成策略，并让模型学习复杂工具调用（ToolUse）能力。

本周四，我们看到xAI的工程师们在发布Grok4时也强调了新一代大模型的多智能体和工具调用能力，可见该方向正在成为各家公司探索的焦点。

Kimi开发了一个受ACEBench启发的综合pipeline，能够大规模模拟真实世界的工具使用场景。具体来讲，该流程系统性地演化出涵盖数百个领域的数千种工具，包括真实的MCP工具和合成工具，然后生成数百个具有多样化工具集的智能体。

大规模Agentic数据合成概览

接下来，这些智能体与模拟环境、用户智能体进行交互，创造出逼真的多轮工具使用情景。最后，由一个大语言模型（LLM）充当评判员，根据任务评分标准（rubrics）评估模拟结果，筛选出高质量的训练数据。

一整套流程走下来，这种可扩展的pipeline生成了多样化、高质量的数据，有效填补特定领域或稀缺场景真实数据的空白。并且，LLM对数据的评估与筛选有效减少低质量数据对训练结果的负面影响。这些数据层面的增强为大规模拒绝采样和强化学习铺平了道路。

最后，KimiK2引入了通用强化学习（GeneralRL），通过结合RL与自我评价（self-judging）机制，在可验证任务与不可验证任务之间架起了一座桥梁。

在数学、编程等可验证任务上，我们可以根据正确答案、任务完成情况等可验证的奖励信号持续更新并改进对模型能力的评估。但是，传统强化学习由于依赖明确的反馈信号，因而在生成文本、撰写报告等不可验证任务中很难给出客观、即时的奖励。

针对这一局限，通用强化学习通过采用自我评价机制，让模型充当自己的评判员（critic），提供可扩展、基于rubrics的反馈。这种反馈替代了外部奖励，解决了不可验证任务中奖励稀缺的问题。与此同时，基于可验证奖励的策略回滚（on-policyrollouts），持续对评判员进行更新，使其不断提升对最新策略的评估准确性。

这种利用可验证奖励来改进不可验证奖励估计的方式，使得KimiK2既能高效地处理传统可验证任务，又能在主观的不可验证任务中自我评估，从而推动强化学习技术向更广泛的应用场景扩展。

从长远来看，KimiK2的这些新实践让大模型具备了在各种复杂环境中持续优化的能力，可能是未来模型智能水平继续进化的关键。

接下来，基模卷什么

Kimi的发布，让我们想起前天xAI的Grok-4发布会，马斯克他们宣传自己大模型推理能力时，列出了基于通用AI难度最高的测试「人类最后的考试」HumanitiesLastExam（HLE）上几个重要突破节点。

其中OpenAI的深度研究、Gemin2.5Pro和Kimi-Reseracher都被列为了重要的突破：

Kimi-Researcher在上个月刚刚发布，其采用端到端自主强化学习，用结果驱动的算法进行训练，摆脱了传统的监督微调和基于规则制或工作流的方式。结果就是，探索规划的步骤越多，模型性能就越强。

而在KimiK2上，月之暗面采用了与Grok4类似的大规模工具调用方式。

另外，我们可以看到，由于国内算力资源的紧缺局面，新一波大模型技术竞争已经逐渐放弃单纯的堆参数、算力规模扩大的方式，在推动模型SOTA的过程中，通过算法上的创新来卷成本和效率成为趋势。