我的世界全部任务（我的世界新手全部流程） - 原点资讯

相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法，Plan4MC 能够有效避免大语言模型规划过程中的错误。

3、实验结果

我的世界全部任务,我的世界新手全部流程(9)

在关于学习技能的研究中，作者引入了不做任务分解的 MineAgent，以及不细分出寻找类技能的消融实验 Plan4MC w/o Find-skill。表 2 表明，Plan4MC 在三组任务上均显著超过基线方法。MineAgent 在挤牛奶、剪羊毛等简单任务上性能接近 Plan4MC，但无法完成探索困难的砍树、挖原石等任务。不做技能细分的方法在所有任务上成功率均低于 Plan4MC。

我的世界全部任务,我的世界新手全部流程(10)

图 3 显示了在完成任务的过程中，各方法在寻找目标的阶段均有较大的失败概率、导致成功率曲线下降。而不做技能细分的方法在这些阶段的失败概率明显高于 Plan4MC 的概率。

我的世界全部任务,我的世界新手全部流程(11)

在关于规划的研究中，作者引入了利用ChatGPT做交互式规划的基线方法Interactive LLM，以及两个消融实验：技能执行失败时不再重新规划的Zero-shot方法和使用一半最大交互步数的1/2-steps方法。表2表明Interactive LLM在与动物交互的任务集上表现接近Plan4MC，而在另两个需要更多规划步骤的任务集上表现不佳。Zero-shot的方法在所有任务上均表现较差。使用一半步数的方法相比Plan4MC成功率下降不多，表面Plan4MC能用较少的步数高效完成任务。

4、总结

作者提出了 Plan4MC，使用强化学习和规划解决 Minecraft 中的多任务。为解决探索困难和样本效率的问题，作者使用内在奖励的强化学习训练基本技能，利用大语言模型构建技能图进行任务规划。作者在大量困难 Minecraft 任务上验证了 Plan4MC 相较包括 ChatGPT 等的各种基线方法的优势。

结束语：强化学习技能大语言模型任务规划有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。