AI 王者「绝悟」升级了,能达到精通金庸武侠里所有武功的那种水平。
今天,腾讯宣布,由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI「绝悟」推出升级版本“绝悟完全体”。
这一升级的背后,则是腾讯策略协作型 AI 算法能力的进一步提升,与之相关的研究也已被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录。
英雄池完全解禁
在王者荣耀中,若每个职业都有 4 个紫色熟练度英雄,就能解锁“全能高手”称号。但受到练习时间与精力限制,很少有人能精通所有英雄,但「绝悟」做到了。
那么,王者再进化,将有多强?
据了解,「绝悟」一年内掌握的英雄数从 1 增加到 100 ,王者荣耀英雄池也实现了完全解禁,不但掌握了所有英雄的全部技能,能应对高达 10 的 15 次方的英雄组合数变化,甚至还“自带军师”,可做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。
目前,“绝悟完全体”已在王者荣耀 App 限时开放,玩家都可与之对战,亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。
11 月 14-30 日,「绝悟」在 20 个关卡的能力将不断提升,最强的 20 级于 11 月 28 日开放,接受 5v5 组队挑战。
AI 教练的田忌赛马术
AI 游戏研究,是腾讯攻克 AI 的终极研究难题,也是通用人工智能(AGI)的关键一步。
腾讯技术团队的长期目标不仅是让“绝悟”学会所有英雄的技能,而且每个英雄都要达到顶尖水平,可以根据阵型排列组合打出制胜局。
但难点就在于,「绝悟」的不同英雄会共享一个模型参数,从零学会单个阵容易如反掌,但面对多英雄组合时就难如登天。对战中,因为地图庞大且信息不完备,不同的 10 个英雄组合有不同的策略规划、技能应用、路径探索及团队协作方式,这将使决策难度几何级增加。
同时不可忽略的是“灾难性遗忘”问题,模型容易边学边忘,这也长期困扰着开发者。
毕竟,一场比赛胜负的关键不仅在于拥有顶尖选手,排兵布阵的教练也非常重要。
基于此,技术团队为「绝悟」找了一个能排兵布阵的 AI 教练,也就是在游戏 BP 环节(禁选英雄)的最优策略。
【绝悟 vs 人类 BP 测试】
受到围棋 AI 算法的启发,研究团队创新地采用了蒙特卡洛树搜索(MCTS)和神经网络结合的自动 BP 模型,能够又快又准地选出具备最大长期价值的英雄。
具体来讲,先采用引入“老师分身”模型,每个 AI 老师在单个阵容上训练至精通,再引入一个 AI 学生模仿学习所有的 AI 老师。
最终,「绝悟」掌握了所有英雄的全部技能,正所谓“少林有七十二艺,功夫既有不同,练习之法,亦必各异。学者苟能尽之,则无敌于世矣。”
「绝悟」手握强兵善用兵
自然,团队的长期目标,就是要让「绝悟」手握强兵,且每个英雄都能达到顶尖水平,因此技术上有了三项重点突破:
首先,团队构建了一个最佳神经网络模型,让模型适配 MOBA 类任务、表达能力强、还能对英雄操作精细建模。
模型综合了大量 AI 方法的优势,如:
在时序信息上引入长短时记忆网络(LSTM)优化部分可观测问题;
在图像信息上选择卷积神经网络(CNN)编码空间特征;
用注意力(Attention)方法强化目标选择;
用动作过滤(Action Mask)方法提升探索效率;
用分层动作设计加快训练速度;
用多头值估计(Multi-Head Value)方法降低估计方差。