s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型-爱论文

s1是什么

s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练，训练成本不到50美元，训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异，与OpenAI的o1和DeepSeek R1等顶尖推理模型相当。

s1的主要功能

高效推理能力：S1模型专注于复杂问题的推理，在数学和编程领域表现出色。能解决高难度的竞赛级数学问题，如AIME（美国数学邀请赛）题目。S1模型在竞赛数学问题上的表现显著提升，最高超过OpenAI的o1-preview模型27%。低成本训练：S1模型仅使用1000个精心策划的问题及其推理轨迹进行训练，训练成本极低，仅需不到50美元的云计算费用，训练时间不到30分钟。测试时扩展（Test-time Scaling）：S1模型通过预算强制技术在测试时动态调整计算量。通过强制终止模型的思考过程或追加“Wait”指令延长思考时间，模型可以重新检查答案，修正错误的推理步骤，提升推理性能。开源与可扩展性：S1模型的代码、数据和训练方法已在GitHub上开源，方便其他研究者和开发者使用和改进。

s1的技术原理

数据集构建（s1K）数据来源：S1模型的数据集s1K包含1000个高质量问题，从多个领域（如数学、物理、化学等）中筛选而来，覆盖了多种推理任务。筛选标准：通过难度、多样性和质量三个标准筛选问题。难度通过模型性能和推理轨迹长度衡量；多样性通过问题所属领域分类；质量通过数据格式和内容的准确性保证。最终选择：最终选择的问题覆盖了50个不同领域，确保了数据的多样性和代表性。监督微调（SFT）模型选择：使用Qwen2.5-32B-Instruct作为基础模型，模型在数学任务上表现优异。训练过程：在s1K数据集上进行监督微调，训练时间为26分钟，使用16个NVIDIA H100 GPU。训练过程中，模型学习从问题到推理轨迹和答案的映射。预算强制（Budget Forcing）控制测试时计算量：通过在测试时强制终止或延长模型的思考过程来控制计算量。具体方法包括：强制终止：如果模型生成的思考令牌数超过预设的最大限制，则强制终止思考过程，让模型直接输出答案。追加“Wait”：如果希望模型思考更长时间，则在当前推理轨迹后追加“Wait”指令，促使模型继续探索。测试时扩展方法的评估评估指标：通过控制性（Control）、扩展性（Scaling）和性能（Performance）三个指标评估不同的测试时扩展方法。方法比较：S1模型比较了多种测试时扩展方法，包括基于令牌的控制、基于步骤的控制和基于类别的控制。最终，预算强制方法在控制性、扩展性和性能上表现最佳。

s1的项目地址

Github仓库：https://github.com/simplescaling/s1HuggingFace模型库：https://huggingface.co/simplescaling/s1-32BarXiv技术论文：https://arxiv.org/pdf/2501.19393

s1的应用场景

科学问题：S1模型可以应用于解决高难度的科学问题，如物理学、化学和生物学中的竞赛级问题。智能辅导系统：S1模型可以作为智能辅导系统的核心，帮助学生解决复杂的数学和科学问题，提供详细的推理步骤和解释。自动问答系统：S1模型可以用于自动问答系统，特别是在需要复杂推理和多步骤思考的场景中，例如解决用户提出的高难度问题。文本生成：S1模型可以用于生成高质量的文本内容，在需要逻辑推理和复杂结构的文本生成任务中。智能客服：S1模型可以应用于智能客服系统，解决复杂的用户问题，提供更准确和高效的解答。数据分析：S1模型可以用于数据分析和预测任务，需要推理和逻辑分析的场景中。