表 4:在人类数据集的单局比赛中,每一对策略中各行玩家的预测胜率。
下面说明一个具体的模拟案例,其中上场玩家是 JueWuDraft 与 HWR,如图 10 所示。JueWuDraft 在三局比赛中的预测胜率分别为 56.3%、71.8%、65.1%。其中第二局和第三局中 JueWuDraft 的胜率比第一局更高。具体来说,在第一局中,JueWuDraft 先手选择了成吉思汗而不是平均胜率最高的刘备,尽管首先选择刘备可能会在第一局得到更高的胜率。这说明 JueWuDraft 的贪心策略没有 HWR 那么高,而是会长线考虑,兼顾后面的对局。
图 10:JueWuDraft 对抗 HWR 的一次具体模拟结果,其中 JueWuDraft 先手选择。
研究局限和展望未来
该研究还存在两方面的局限,有待进一步探索和延伸。
- 第一,该研究还没考虑英雄禁选过程,这也非常重要,通常与选英雄过程合称「Ban/Pick」。
- 第二,训练数据集是从强化学习训练比赛或人类比赛收集的,尽管这套 AI 系统的目标是击败人类玩家,但训练出的智能体与人类玩家的胜率差距还很明显。而这里设计的胜率预测器还没有充分考虑这一差距。
研究者希望能在这两方面为 JueWuDraft 带来进一步突破。
论文链接:https://arxiv.org/abs/2012.10171