MindAgent框架,让大模型学会规划
那么大模型到底怎么学会玩游戏的呢?
也就是靠研究中提出的MindAgent框架了,主要由提示、当前状态和记忆三个组件组成。
提示组件中包含菜谱、一般说明、推理知识和单样本演示。
当前状态组件提供对环境的观察快照,包括智能体的位置、持有的物品、环境中可使用的工具等信息,还包括违反规则时会被触发的反馈。
记忆组件记录了每个时间步骤的环境状态和智能体状态。
利用这些组件,大模型会先输出对任务规划的文本描述,接下来还有两个关键步骤:
动作提取,用正则表达式提取输出文本中的动作,这一步是必不可少的,因为输出文本黄总可能包含大模型思维过程,甚至是察觉到失误而道歉的信息。
动作验证,评估每个动作的可行性,如果发现无法执行则返回错误消息。
最终,团队在实验中得到如下发现:
- GPT-4在零样本条件下就能根据简单的游戏说明调度2-4个智能体完成菜肴制作,甚至可以与人类玩家协作。
- 提供极少量的专家演示,解释某些动作的推理、以及在规划过程中提供实时反馈,可以显著提升大模型的多智能体规划表现。
- 可以从更少智能体的例子推广到协调更多智能体,以及适应新的游戏领域。
- 与经典的专用规划算法相比,大模型规划仍存在计算成本、上下文长度限制、非最优规划等瓶颈,但可以从数据中在线改进,更灵活地适应不同规划问题。
- 在人机互动实验中,不同数量智能体与人协作会提高任务成功率,但太多智能体也会降低游戏乐趣。
另外,论文附录上还给出了系统提示词示例,如果想让AI学会玩你喜欢的游戏,可以参考一下。
论文地址:
https://www.microsoft.com/en-us/research/publication/mindagent-emergent-gaming-interaction/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态