王者ai绝悟选什么英雄,王者荣耀中绝悟ai怎么打

首页 > 经验 > 作者:YD1662024-03-09 11:26:44

图 4:价值传播

网络结构和状态重构:为了以更高效的方式训练策略和价值网络,需要对状态进行重构。如图 5 所示,重构的状态向量主要包含三部分。一是当前英雄选择部分,即当前局的英雄选择,这对当前局的胜率有主要影响。该向量的中间部分是历史的英雄选择信息。最后一部分是关系信息(比如当前对局由哪方先选)。

王者ai绝悟选什么英雄,王者荣耀中绝悟ai怎么打(5)

图 5:状态向量的配置

如图 6(b) 所示,策略和价值网络使用了一个简单的 3 层全连接神经网络。其以图 5 所示的状态向量为输入,输出则是两个头(head):一个带 softmax 函数的全连接层(策略头,其输出每个动作的概率);一个带 tanh 函数的全连接层(价值头,输出当前状态的价值)。

王者ai绝悟选什么英雄,王者荣耀中绝悟ai怎么打(6)

图 6:网络架构:(a) 是胜率预测器,(b) 是策略和价值网络

胜率预测器

在选择英雄阶段,只能得到阵容信息,胜负信息是未知的。作者采用了胜率预测器来预测阵容的胜率并将其作为奖励函数。

训练这个胜率预测器所使用的比赛数据集包含阵容和胜负信息。每个英雄都各有一个范围在 [0, N_classes−1] 之间的索引。输入特征由全部 10 个已选择英雄的索引表示。

图 6(a) 给出了胜率预测器的网络架构,这是一个简单的 3 层神经网络,其输出层连接着一个 sigmoid 激活函数。

实验

在实验中,JueWuDraft 总体而言优于其它策略,该算法的有效性和高效性也得到了体现。

具体来说,JueWuDraft 与这三种策略进行了比较:

王者ai绝悟选什么英雄,王者荣耀中绝悟ai怎么打(7)

表 1:在 AI 数据集的单局比赛中(各行玩家对抗各列玩家),每一对策略中各行玩家的预测胜率。

王者ai绝悟选什么英雄,王者荣耀中绝悟ai怎么打(8)

上一页123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.