图 4:价值传播
网络结构和状态重构:为了以更高效的方式训练策略和价值网络,需要对状态进行重构。如图 5 所示,重构的状态向量主要包含三部分。一是当前英雄选择部分,即当前局的英雄选择,这对当前局的胜率有主要影响。该向量的中间部分是历史的英雄选择信息。最后一部分是关系信息(比如当前对局由哪方先选)。
图 5:状态向量的配置
如图 6(b) 所示,策略和价值网络使用了一个简单的 3 层全连接神经网络。其以图 5 所示的状态向量为输入,输出则是两个头(head):一个带 softmax 函数的全连接层(策略头,其输出每个动作的概率);一个带 tanh 函数的全连接层(价值头,输出当前状态的价值)。
图 6:网络架构:(a) 是胜率预测器,(b) 是策略和价值网络
胜率预测器
在选择英雄阶段,只能得到阵容信息,胜负信息是未知的。作者采用了胜率预测器来预测阵容的胜率并将其作为奖励函数。
训练这个胜率预测器所使用的比赛数据集包含阵容和胜负信息。每个英雄都各有一个范围在 [0, N_classes−1] 之间的索引。输入特征由全部 10 个已选择英雄的索引表示。
图 6(a) 给出了胜率预测器的网络架构,这是一个简单的 3 层神经网络,其输出层连接着一个 sigmoid 激活函数。
实验
在实验中,JueWuDraft 总体而言优于其它策略,该算法的有效性和高效性也得到了体现。
具体来说,JueWuDraft 与这三种策略进行了比较:
- DraftArtist,使用了单纯的 MCTS,没有策略和价值网络。该策略不会考虑后续对局的情况。
- 最高胜率(HWR)策略,基于统计数据选择剩余英雄池中胜率最高的英雄。
- 随机策略(RD),在剩余英雄池中随机挑选一个英雄。
表 1:在 AI 数据集的单局比赛中(各行玩家对抗各列玩家),每一对策略中各行玩家的预测胜率。