Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型-爱论文

Embodied Reasoner是什么

Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型，基于视觉搜索、推理和行动协同完成复杂任务。模型基于模仿学习、自我探索和自我修正的三阶段训练方法，生成多样化的思考过程（如情境分析、空间推理、自我反思等），基于交互历史和空间布局进行高效规划和推理。在AI2-THOR模拟器的多种任务中，Embodied Reasoner显著优于现有的视觉推理模型，在复杂长时序任务中表现出色，减少重复搜索和逻辑不一致问题。

Embodied Reasoner的主要功能

视觉搜索与目标定位：在复杂环境中搜索隐藏或暴露的物体，根据任务要求定位目标。推理与规划：基于生成多样化的思考过程（如情境分析、空间推理、自我反思等），制定高效的行动策略。行动执行：根据推理结果执行相应的动作，如导航、抓取、放置等，完成任务。自我修正与学习：基于反思和自我修正机制，避免重复搜索和逻辑不一致问题，提升任务成功率。复杂任务处理：擅长处理长时序、多步骤的复合任务。

Embodied Reasoner的技术原理

数据引擎：通过任务模板和场景元数据自动生成任务指令和对应的“观察-思考-行动”轨迹，包含丰富的思考过程和交互图像。三阶段训练：模仿学习：在合成的轨迹上进行微调，学习基本的交互技能。自我探索（拒绝采样）：基于采样和评估生成的轨迹，增强模型的探索能力。自我修正（反思调整）：注入异常状态和反思修正错误，提升模型的自适应能力。多模态交互：结合视觉输入（图像）和语言输出（思考和动作），实现高效的环境交互和任务完成。推理机制：基于生成长思考序列，模拟人类的推理过程，提升模型在复杂任务中的表现。

Embodied Reasoner的项目地址

项目官网：https://embodied-reasoner.github.io/GitHub仓库：https://github.com/zwq2018/embodied_reasonerHuggingFace模型库：https://huggingface.co/datasets/zwq2018/embodied_reasonerarXiv技术论文：https://arxiv.org/pdf/2503.21696