AgentGen – 微软联合港大推出的提高AI大模型规划能力的框架-爱论文

AgentGen是什么

AgentGen是香港大学与微软联合推出的AI项目框架，通过自动生成多样化环境和任务，显著提升了大语言模型（LLM）的规划能力。AgentGen利用BI-EVOL方法，创建难度递增的任务集，使8B参数的Llama-3模型在某些任务上接近GPT-4水平。AgentGen在领域内和领域外任务评估中表现出色，未来有望应用于机器人控制、智能家居等复杂规划任务。

AgentGen的主要功能

自适应环境构建：框架能够自主构思并创造出多样化的虚拟环境，为智能体提供丰富的交互场景。智能任务定制：基于先进的语言模型，AgentGen能智能地定制任务，生成的环境能够具有适应性。动态难度调节：通过创新的BI-EVOL策略，框架能够动态调整任务难度，促进智能体在不同复杂度的任务中学习和成长。无需大量训练数据：AgentGen的零样本生成能力减少了对大规模训练数据集的需求，加快了模型的训练过程。精准技能强化：通过指令微调，框架能够精准地强化智能体在特定任务上的技能，提升其解决问题的能力。全面性能监测：AgentGen通过细致的性能评估体系，智能体能在各种任务中的表现达到最优。

AgentGen的技术原理

环境生成：AgentGen使用大语言模型（LLM）来生成环境规范，包括状态空间、动作空间和转移函数的定义。然后，通过代码生成技术实现这些环境的具体代码。启发式规则和语料库：在环境生成过程中，AgentGen利用启发式规则和多样化的语料库来指导LLM生成具有多样性的环境。任务生成：基于生成的环境，AgentGen进一步使用LLM生成相应的规划任务，确保任务与环境相匹配。BI-EVOL方法：AgentGen采用双向演化（BI-EVOL）方法来调整任务难度，包括easy-evol（简化任务）和hard-evol（复杂化任务），形成难度递增的任务集。零样本学习：在任务生成的初始阶段，AgentGen通过零样本学习的方式提示LLM生成一组初始规划任务。指令微调：AgentGen通过指令微调技术，使用合成的轨迹数据（动作-观察对序列）对LLM进行微调，提升其规划能力。性能评估：AgentGen通过成功率和进度率等指标来评估模型在规划任务上的表现，确保训练的有效性。