dota最均衡的ai图

图丨第一局阵容

不过这种情况在正式比赛中有所好转，因为玩家的水平有了极大提升。在第一局的对线期，人类选手的补刀并没有落下 AI 多少，AI 的冲塔*也收敛了许多，因为选手的走位和耗血都更加慎重。同时人类的优势路拉野技巧也让 AI 不知所措，这也是它控制的英雄第一次出现原地转圈的情况。

然而好景不长，AI 对技能和血量的精准计算使得它们在小规模交战中占尽优势，几次交战人类选手不仅没有占到优势，还被打出多次 3 人小团灭，甚至被 AI 火枪手绕树林反*。自此，AI 开始占据人头和经济优势，并且展示出了十分明显的抱团推进策略，经常会出现*人拿塔的“完美节奏”。

人类队伍在影魔做出隐刀后稍稍稳住了局面，几次成功的抓人和互换暂缓了 AI 的*人节奏。这时的 AI 并没有展现出传统 Bot 的无脑抱团推进，它们开始展开 2-3 人的小型抓人，同时大哥火枪和直升机偶尔钻野补发育。不难看出，AI 系统其实已经形成了对游戏的“理解”，即在不同局面下做出不同的选择。

此后局面持续失控，人类队伍面对 AI 的凶狠 Gank 和抱团拿塔毫无办法，毕竟火枪的狙击和直升机的高射炮随随便便就能秒*辅助。在 AI 队伍*上下路高地时，人类的死灵法被秒，但是第一时间选择买活，AI 队伍居然像人类玩家一样选择了撤退，寻找下一次更好的时机。之后再次冲击高地时，人类神牛跳大被莱恩秒羊，这不仅预示着团战的溃败，高地的失守，也奠定了此后游戏的走向。最终人类无力抵抗，24 分钟打出 GG。

第二局比赛的总体走向和第一局十分相似，人类队伍拿出隐刺试图打出更多信息，增加更多的不确定性，影响 AI 的判断。最初虽然打出了一定的效果，但是 AI 的总体思路并没有改变，通过刚三压制人类大哥的发育，积极的游走、换路和 TP 破坏人类选手的击*和推塔。

虽然隐刺、神牛和影魔的配合打出了一定的积极效果，多次成果击* AI 的火枪和辅助，但在人类乘胜追击时，AI 总是会找到突破口反*人类。值得一体的是，第一局中人类选手因为游戏延迟暂停了游戏，而第二局中 AI 系统也暂停了一次，这似乎证明了 AI 在学习人类的行为，尽管它不明白背后的理由。

游戏进行到15分钟左右，随着人类中路的失守，局势再一次被AI所掌控。最终AI队伍在24分钟拿下次局。

在2：0击败人类队伍后，OpenAI的CTO Greg Brockman宣布，“我们的系统已经准备好在TI8上面对顶尖职业队伍了！”

dota最均衡的ai图,(5)

图丨OpenAI CTO 推文

随后进行的第三局颇有些为人类挽回最后尊严的意思，因为双方的阵容是由观众选出的，AI只负责在游戏中操作。最后我们可以看出 OpenAI 对观众选出的阵容十分“不满”，只给出了2.9% 的赛前胜率预测。

dota最均衡的ai图,(6)

第三局的走向也证明了OpenAI的赛前预测，没有了前两局的顺风顺水和完美节奏。在游戏初期，AI 操刀的斧王选择了双圆盾出门，配合除隐刺外的3名队友强行压制人类优势路，不过效果并不理想，毕竟斯温和小鱼双核在没有装备支撑的情况下效果有限。

在丧失了分路知识和熟悉的节奏后，AI 英雄在 10 到 25 分钟在地图的各个地方频频被抓，5 个英雄各自为战，无法组织有效的反击、防御和游走。比赛也进入了人类的节奏，此后 OpenAI 下路高地被破，我们也看到了很多莫名的举动，比如小鱼人胡乱使用暗影之舞，女王对着风杖吹起的死亡先知放大，斯温和斧王在敌方塔下乱走等。AI 系统还在游戏中给出了1%的绝望胜率。

人类在 33 分钟攻上了 AI 的中路高地，在 BKB 的直升机面前，AI 并没有做出多少有效的抵抗就被击溃。最终人类扳回一局，守住尊严。同时也揭示了现阶段 AI 系统的不足—从逆风局中学习的知识还不够多，无法有效应对局面不利的情况。

事实上，在此前击败人类业余队伍后，OpenAI 承认，他们在项目最初也没有料到，全无基础的强化学习会达到如此高度。

dota最均衡的ai图,(7)

图丨OpenAI Five 的网络架构图

OpenAI 的 Dota 2 人工智能系统名为“OpenAI Five”。根据 OpenAI 此前的论文，该系统基于机器学习和神经网络技术，在 256 个 GPU 和 12.8 万个 CPU（谷歌云平台）的加持下，通过近端策略优化（PPO）算法，24 小时不间断地进行自主对抗，其每日训练量等同于 180 年的游戏时间。

训练全程未使用人类选手的数据，也没有搜索和观看人类游戏的录像，全靠自学成才。不过目前英雄的出装和技能选择都是人类编写的脚本，AI 在每局游戏中会随机选择一套。

由于 AI 系统要“操控”5 位英雄，OpenAI 为每位英雄分配了一个长短期记忆递归神经网络（LSTM RNN Network）。网络之间没有直接的沟通渠道，只有在同一局游戏中，5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间，用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97，促使每个网络将团队利益放在首位。

dota最均衡的ai图,(8)