Xiaomi MiMo – 小米开源的首个推理大模型-爱论文

Xiaomi MiMo是什么

Xiaomi MiMo 是小米开源的首个推理（Reasoning）大模型，支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练，挖掘大量富推理语料并采用创新的强化学习算法，显著提升数学推理和代码生成能力。MiMo 仅用 7B 参数规模，在公开测评集上超越 OpenAI 的 o1-mini 和阿里 Qwen 的 QwQ-32B-Preview 等更大规模模型。Xiaomi MiMo包含4 个模型版本，预训练模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT、强化学习模型MiMo-7B-RL和MiMo-7B-RL-Zero已开源至 HuggingFace，为开发者提供强大的推理工具。

Xiaomi MiMo的主要功能

强大的数学推理能力：解决复杂的数学问题，提供准确的推理路径和答案。高效的代码生成能力：生成高质量的代码，适用于多种编程任务。优化的推理性能：基于预训练和后训练的联动提升推理能力，用 7B 参数规模超越更大规模的模型，展现出高效的推理性能。

Xiaomi MiMo的技术原理

预训练阶段：着重挖掘富推理语料，合成约 200B tokens 的推理数据，确保模型见过更多推理模式。基于三阶段训练，逐步提升训练难度，总训练量达到 25T tokens，模型在不同难度的任务中逐步提升能力。后训练阶段：强化学习算法：推出 Test Difficulty Driven Reward 算法，缓解困难算法问题中的奖励稀疏问题，提升模型在复杂任务中的表现。数据重采样策略：引入 Easy Data Re-Sampling 策略，稳定强化学习（RL）训练过程。高效训练框架：设计 Seamless Rollout 系统，加速 RL 训练（2.29 倍）和验证（1.96 倍），提升训练效率。模型架构优化：针对推理任务优化模型架构，确保在有限参数规模下实现高效推理能力。

Xiaomi MiMo的项目地址

GitHub仓库：https://github.com/XiaomiMiMoHuggingFace模型库：https://huggingface.co/XiaomiMiMo技术论文：https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf