当前位置: 网站首页 >AI教程资讯 >正文

Phi-4-reasoning – 微软推出的Phi-4推理模型系列

来源:爱论文 时间:2025-05-14 09:23:32

Phi-4-reasoning是什么

Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链,在推理时有效利用计算资源。 Phi-4-reasoning 在多项基准测试中表现出色,超越了参数规模更大的模型,如 DeepSeek-R1-Distill-Llama-70B。在数学推理、科学问题、编程和算法问题解决等多个领域都有优异表现。Phi-4-reasoning-plus 是在此基础上通过强化学习进一步优化的版本,推理能力更强。Phi-4-mini-reasoning是一个 38 亿参数的紧凑型推理模型,专为资源受限的环境设计,如移动设备或边缘计算场景。通过 DeepSeek-R1 模型生成的合成数据进行微调。

Phi-4-reasoning的主要功能

强大的复杂推理能力:Phi-4-reasoning 能处理需要多步骤分解和内部反思的复杂任务,在数学推理、科学问题解决、编程和算法问题解决等领域表现出色。生成详细推理链:模型通过监督微调(SFT)训练,能生成详细的推理链,有效利用推理阶段的计算资源,提升推理的准确性和效率。高效利用计算资源:Phi-4-reasoning 通过推理时间扩展技术(inference-time scaling),能在推理过程中动态分配更多计算资源,进一步提升推理能力。教育与辅导应用:Phi-4-reasoning 覆盖从中学到博士级别的多样化数学问题,适用于教育领域的嵌入式辅导和低延迟场景。轻量级部署:Phi-4-mini-reasoning 是系列的紧凑型版本,专为资源受限的环境设计,适合在移动设备或边缘计算场景中部署。多领域适应性:除了数学和科学推理,Phi-4-reasoning 在通用能力测试中也表现出色,包括长输入上下文问答、指令遵循、编程、知识与语言理解等。

Phi-4-reasoning的技术原理

监督微调(SFT):Phi-4-reasoning 在 Phi-4 模型的基础上进行训练,通过重新分配两个占位符作为“思考”和“结束思考”标记,以容纳额外的推理标记,将模型支持的最大标记长度从 16K 扩展到 32K。训练数据包括合成生成的长链思考推理痕迹和高质量答案,涵盖数学、编程和安全等领域。在约 16K 步的训练过程中,模型逐渐学会了使用“思考”标记,在训练过程中提高了推理能力。强化学习(RL):Phi-4-reasoning-plus 是通过基于结果的强化学习进一步增强推理能力的版本。强化学习专注于数学推理,使用 72,401 个数学问题作为种子数据集。奖励函数旨在激励正确性、惩罚不良行为(如重复和过度长度),鼓励适当的响应格式。数据方法论:Phi-4-reasoning 的训练数据方法论强调高质量数据的策划,包括创意设计的合成生成和经过筛选的有机数据。种子数据库的构建从各种网络资源中收集问题,通过 LLM 评估和过滤流程进行筛选,优先考虑需要复杂多步骤推理的提示。此训练数据经过全面的去污染处理,避免对常用推理基准的污染。

Phi-4-reasoning的项目地址

HuggingFace模型库:https://huggingface.co/collections/microsoft/phi-4arXiv技术论文:https://arxiv.org/pdf/2504.21318

Phi-4-reasoning的应用场景

教育与研究:Phi-4-reasoning 和 Phi-4-mini-reasoning 非常适合教育领域,能解决从初中到博士级别的多样化数学和科学问题。复杂业务决策支持:Phi-4-reasoning-plus 通过强化学习进一步提升了推理能力,适合需要高准确性的关键业务决策支持系统。能处理复杂的多步骤任务,为复杂业务问题提供精确的解决方案。编程与算法问题解决:在编程和算法问题解决方面,Phi-4-reasoning 表现出色,能生成详细的推理链和解决方案。适用于开发环境中的代码辅助和算法优化任务。轻量级部署与移动设备:Phi-4-mini-reasoning 是紧凑型推理模型,专为计算资源受限的环境设计,例如移动设备和边缘计算场景。代理型应用的核心引擎:Phi-4-reasoning 系列模型可以作为代理型应用(agentic applications)的核心引擎,处理复杂的多方面任务。
上一篇:HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架
相关资讯 更多+
  • Phi-4-reasoning – 微软推出的Phi-4推理模型系列
    Phi-4-reasoning – 微软推出的Phi-4推理模型系列

    Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理演示数据。模型能生成详细的推理链,在推理时有效利用计算资源。

    AI教程资讯 2023-04-14

  • HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架
    HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

    HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为沉浸式的 4D 场景。

    AI教程资讯 2023-04-14

  • NoteLLM – 小红书推出的笔记推荐多模态大模型框架
    NoteLLM – 小红书推出的笔记推荐多模态大模型框架

    NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。

    AI教程资讯 2023-04-14

  • T2I-R1 – 港中文联合上海AI Lab推出文生图模型
    T2I-R1 – 港中文联合上海AI Lab推出文生图模型

    T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低层次像素生成的解耦,显著提升图像生成的质量和鲁棒性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定