游泳。
狩猎。
食用食物。
用行为克隆进行微调
基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。
那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。
制作一个石镐所需要的物品顺序