如图2.3所示,
对应着 layer2 的输出。
表示动作 a 所对应的softmax输出。上面的式子便给出了智能体在状态s处采用动作a的概率。该式是关于的函数,可直接对其求对数,然后求导带入到策略梯度公式,利用策略梯度的理论更新参数。然而,在这里我们将问题转化一下,对于一个episode,策略梯度理论的一步更新,其实是对损失函数为
的一步更新。
而损失函数可写为:
如图2.3所示,
对应着 layer2 的输出。
表示动作 a 所对应的softmax输出。上面的式子便给出了智能体在状态s处采用动作a的概率。该式是关于的函数,可直接对其求对数,然后求导带入到策略梯度公式,利用策略梯度的理论更新参数。然而,在这里我们将问题转化一下,对于一个episode,策略梯度理论的一步更新,其实是对损失函数为
的一步更新。
而损失函数可写为:
Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.