WebThinker – 人民大学联合智源研究院等机构推出的深度研究智能体-爱论文

WebThinker是什么

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型（LRMs）在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略，让LRMs能动态获取信息，实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinker在复杂推理和报告生成任务中表现优异，显著提升LRMs在知识密集型任务中的可靠性和实用性。

WebThinker的主要功能

自主决策：LRM在推理过程中自主判断何时需要外部知识，何时需要更新报告。深度探索：支持进行多步搜索和页面导航，深入挖掘信息。动态撰写：模型能实时撰写、修改报告内容，配备专门的工具集（如写作、检查、编辑），确保报告的连贯性和完整性。工具优化：优化LRM对研究工具的使用效率。

WebThinker的技术原理

深度网页探索器（Deep Web Explorer）：赋予LRM超越传统简单搜索的能力，基于点击链接和按钮等交互元素在网页间导航，深入挖掘信息。模型自主决定搜索查询，持续探索直至收集到足够信息，返回精炼总结。基于强化学习的训练策略：基于迭代式的在线直接偏好优化（DPO）训练，提升LRM对研究工具（包括搜索、导航、报告撰写工具）的利用效率。构建偏好数据集，优先选择能得出正确答案、高质量报告且工具使用更高效的推理路径。运行模式：问题解决模式为LRM配备深度网页探索器，深入探索网络解决复杂问题。报告生成模式进一步赋予LRM写作、检查和编辑能力，在思考和搜索的同时，迭代式地撰写全面的研究报告。

WebThinker的项目地址

项目官网：https://foremost-beechnut-8ed.notion.site/WebThinkerGitHub仓库：https://github.com/RUC-NLPIR/WebThinkerHuggingFace模型库：https://huggingface.co/collections/lixiaoxi45/webthinkerarXiv技术论文：https://arxiv.org/pdf/2504.21776

WebThinker的应用场景

复杂问题解答：为博士级科学问题或跨学科难题，快速提供准确答案。研究报告生成：自主搜索、撰写科学研究报告，确保内容全面、准确、连贯，提升报告生成效率。深度信息挖掘：基于多步搜索和页面导航，获取深层次信息，支持复杂分析和研究。教育辅助：在教育领域，帮助学生查找学习资料、解答学术问题，为教师生成教学大纲，提升学习和教学效率。企业决策支持：为企业提供市场分析、竞争对手分析等决策支持，帮助管理层快速获取关键信息，做出更明智的决策