gym模块如何安装,windows能安装gym吗

首页 > 实用技巧 > 作者:YD1662024-01-02 22:09:04

如图2.3所示,

gym模块如何安装,windows能安装gym吗(13)

对应着 layer2 的输出。

gym模块如何安装,windows能安装gym吗(14)

表示动作 a 所对应的softmax输出。上面的式子便给出了智能体在状态s处采用动作a的概率。该式是关于的函数,可直接对其求对数,然后求导带入到策略梯度公式,利用策略梯度的理论更新参数。然而,在这里我们将问题转化一下,对于一个episode,策略梯度理论的一步更新,其实是对损失函数为

gym模块如何安装,windows能安装gym吗(15)

的一步更新。

而损失函数可写为:

gym模块如何安装,windows能安装gym吗(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.