gym模块如何安装,windows能安装gym吗

首页 > 实用技巧 > 作者:YD1662024-01-02 22:09:04

,动作空间为

gym模块如何安装,windows能安装gym吗(9)

,当动作为1时,施加正向的力10N;当动作为0时,施加负向的力-10N。

因为动作空间是离散的,因此我们设计随机策略为softmax策略。Softmax策略如何构建,以及如何构建损失函数,从而将强化学习问题变成一个优化问题。

2.3 soft策略及其损失函数

我们设计一个前向神经网络策略,如图2.3所示。

gym模块如何安装,windows能安装gym吗(10)

图2.3 softmax策略

该神经softmax策略的输入层是小车倒立摆的状态,维数为4;最后一层是softmax层,维数为2。有机器学习的同学都很清楚,softmax常常作为多分类器的最后一层。

一个最基本的概念是何为softmax层?

如图2.3,设layer2的输出为z, 所谓softmax层是指对z作用一个softmax函数。即:

gym模块如何安装,windows能安装gym吗(11)

对于softmax策略,策略梯度理论中的随机策略为:

gym模块如何安装,windows能安装gym吗(12)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.