其次,团队研究出了拓宽英雄池,让「绝悟」掌握所有英雄技能的训练方法——CSPL(Curriculum Self-Play Learning,课程自对弈学习)。
根据下图可以看出,使用 CSPL 方法扩展英雄池有明显优势。
据悉,这是一种让 AI 从易到难的渐进式学习方法——第一步是挑选多组覆盖全部英雄池的阵容,在小模型下用强化学习训练;第二步是蒸馏,把第一步得到的多个模型的能力迁移到同一个大模型中;第三步是随机阵容的强化训练,在蒸馏后的大模型里,随机挑选阵容继续强化训练和微调。
最后,团队搭建了大规模训练平台腾讯开悟(aiarena.tencent.com),依托项目积累的算法经验、脱敏数据及腾讯云的算力资源,为训练所需的大规模运算保驾护航。
2020 年 8 月,开悟平台对 18 所高校开放,未来希望为更多科研人员提供技术与资源支持,深化课题研究。
早在 2018 年 12 月的 KPL 秋季总决赛中,「绝悟」就曾公开亮相对战人类玩家。
当时,团队研发了监督学习(SL)方法,针对大局观和微操策略同时建模,使得「绝悟」同时拥有优秀的长期规划和即时操作,达到了非职业玩家的顶尖水平。
但其实,团队对于监督学习的研发一直在进行——今年 11 月 14 日起开放的绝悟第 1 到 19 级,就有多个关卡由监督学习训练而成。
理论上,监督学习训练出的 AI 表现逊于强化学习的结果,但这一方向极具研究与应用价值,相关成果也入选了顶刊 TNNLS 。