甚至支持VR模式,将玩家与NPC的交互体验提升到一个新的水平。
在我的世界测试中,新任务生成间隔(T值)越大、规划难度越小,GPT-4在简单到中等(T3-T5)任务中表现不错,高难任务中表现有明显下降。
CoS指标衡量多智能体协作的效率,GPT-4在不同难度任务下平均完成了58%的任务。
分手厨房,没朋友也能玩了研究还设计了测试基准CuisineWorld。
规则类似著名联机游戏《胡闹厨房》,2-4位玩家需要在限制时间内分工配合完成各种菜品的制作并送达顾客手中。
(因为玩家之间配合不好容易“友尽”,在玩家群体中被戏称为分手厨房。)
与我的世界一样,CuisineWorld同样支持智能体间协作,人机协作,以及VR交互。
由于专为智能体协作打造,在CuisineWorld上可以方便完成更多测试。
这回GPT-4、ChatGPT(gpt-3.5-turbo0613)、Claude-2和Llama2 70b都参与进来。
结果GPT-4只控制两个智能体就能完成68%的任务,Claude-2能完成31%,Llama2和ChatGPT则根本不会玩。
另外3个GPT-4就已经能完成80%的任务,再加到4个效果已经不明显,Claude-2增加智能体数量还有进步空间。