当前位置: 网站首页 >AI教程资讯 >正文

Light-R1 – 360智脑开源的长思维链推理模型

来源:爱论文 时间:2025-03-10 10:08:11

Light-R1是什么

Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7万条数学数据和两阶段课程学习(SFT+DPO)训练,实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中,Light-R1取得76.6分,显著高于DeepSeek-R1-Distill的72.6分。模型训练成本低,仅需12台H800机器运行6小时,成本约1000美元。模型支持全量开源,包括模型、数据集、训练框架和评测代码,推动开源社区发展,为低成本训练领域专精模型提供参考。

Light-R1

Light-R1的主要功能

高效数学问题解决:能快速、准确地解决复杂的数学问题,包括但不限于代数、几何、概率等领域。推理能力提升:具备较强的逻辑推理能力,支持处理长思维链问题。泛化能力:在其他领域(如逻辑推理、语言理解)表现出泛化能力。低成本训练与部署:极低的成本实现高性能,适合资源有限的用户或企业快速部署和应用。

Light-R1的技术原理

基础模型与起点:模型基于 Qwen2.5-32B-Instruct 开发,实现从零到超越 DeepSeek-R1-Distill 的性能提升。课程学习:SFT(Supervised Fine-Tuning):筛选难度分级的数据,分两阶段进行有监督的微调。第一阶段用 7 万条数据,第二阶段筛选出难度最高的 3 千条数据进一步微调。DPO(Direct Preference Optimization):在 SFT 的基础上,基于多次采样和偏好对的构建,优化模型的输出质量。数据处理与去重:训练数据来自多个开源数学数据集(如 OpenR1-Math-220k、OpenThoughts-114k 等),经过严格的数据去重处理,避免测试数据泄露对模型性能的影响。模型融合:最终的 Light-R1-32B 是融合 SFT 阶段 2、DPO 和另一个 DPO 版本的模型得到的。进一步提升模型的性能和稳定性。训练框架与优化:用 360-LLaMA-Factory 训练框架,支持序列并行和高效的分布式训练。基于优化训练流程,Light-R1 在 12 台 H800 机器上仅需 6 小时即可完成训练。

Light-R1的项目地址

GitHub仓库:https://github.com/Qihoo360/Light-R1HuggingFace模型库:https://huggingface.co/collections/qihoo360/light-r1

Light-R1的应用场景

教育领域:作为数学学习工具,帮助学生解决复杂问题,提供解题步骤和思路,适用于数学竞赛和日常学习。科研与学术:辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。企业应用:用于数据分析、风险评估、供应链优化等复杂问题的解决。软件集成:集成到智能助手、数学软件中,增强推理和解题功能。开源与开发者:支持开发者定制和扩展模型,推动开源社区发展。
上一篇:SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型
相关资讯 更多+
  • Light-R1 – 360智脑开源的长思维链推理模型
    Light-R1 – 360智脑开源的长思维链推理模型

    Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2 5-32B-Instruct,用7万条数学数据和两阶段课程学习(SFT+DPO)训练,实现从零超越DeepSeek-R1-Distill-Qwen-32B的性能。

    AI教程资讯 2023-04-14

  • SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型
    SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型

    SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。

    AI教程资讯 2023-04-14

  • TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画
    TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

    TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视频,覆盖多个STEM领域(如数学、物理、化学和计算机科学)。

    AI教程资讯 2023-04-14

  • mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token
    mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token

    mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档图像压缩技术,实现对文档图片的高效理解和处理。

    AI教程资讯 2023-04-14

最新录入 更多+
确定