PRefLexOR – MIT 团队推出的新型自学习AI框架-爱论文

PRefLexOR是什么

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化和强化学习（RL）的概念，模型能通过迭代推理改进自我学习。框架的核心是递归推理算法，模型在训练和推理阶段会进行多步推理、回顾和改进中间步骤，最终生成更准确的输出。PRefLexOR的基础是优势比偏好优化（ORPO），模型通过优化偏好响应和非偏好响应之间的对数几率来对齐推理路径。集成了直接偏好优化（DPO），通过拒绝采样进一步提升推理质量。

PRefLexOR的主要功能

动态知识图谱构建：框架不依赖预生成的数据集，是通过动态生成任务和推理步骤，实时构建知识图谱。使模型能不断适应新任务，在推理过程中动态扩展知识。跨领域推理能力：PRefLexOR能够将不同领域的知识进行整合和推理，例如在材料科学中，模型可以通过递归推理和知识图谱生成新的设计原则。自主学习与进化：通过递归优化和实时反馈，PRefLexOR能够在训练过程中自我教学，不断改进推理策略，展现出类似人类的深度思考和自主进化能力。

PRefLexOR的技术原理

递归推理与反思：PRefLexOR通过引入“思考令牌”和“反思令牌”，明确标记推理过程中的中间步骤和反思阶段。模型在推理过程中会生成初始响应，然后通过反思逐步改进，最终生成更准确的答案。偏好优化：PRefLexOR基于优势比偏好优化（ORPO）和直接偏好优化（DPO）。模型通过优化偏好响应和非偏好响应之间的对数优势比，使推理路径与人类偏好决策路径一致。DPO进一步通过拒绝采样调整推理质量，确保偏好对齐的细微差别。多阶段训练：PRefLexOR的训练分为多个阶段：首先通过ORPO对齐推理路径，然后通过DPO进一步优化推理质量。这种混合方法类似于RL中的策略细化，模型通过实时反馈和递归处理不断改进。

PRefLexOR的项目地址

Github仓库：https://github.com/lamm-mit/PRefLexORarXiv技术论文：https://arxiv.org/pdf/2410.12375

PRefLexOR的应用场景

材料科学与设计：PRefLexOR在材料科学领域展示了强大的推理能力。通过动态生成问题和检索增强技术（RAG），能从随机文本中提取信息，构建动态知识图谱。跨领域推理：PRefLexOR能整合不同领域的知识，进行跨领域的推理和决策。在生物材料科学中，可以通过递归推理和反思机制，将生物学原理与材料科学相结合，提出新的解决方案。开放域问题解决：作为一种基于强化学习的自学习系统，PRefLexOR能解决开放域问题，通过迭代优化和反馈驱动的学习，不断改进其推理路径。生成材料信息学：PRefLexOR可用于生成材料信息学工作流，将信息转化为知识和可操作的结果。通过多步推理和自我评估，能实现更复杂的预测，支持材料预测的持续改进。