,动作空间为
,当动作为1时,施加正向的力10N;当动作为0时,施加负向的力-10N。
因为动作空间是离散的,因此我们设计随机策略为softmax策略。Softmax策略如何构建,以及如何构建损失函数,从而将强化学习问题变成一个优化问题。
2.3 soft策略及其损失函数
我们设计一个前向神经网络策略,如图2.3所示。
图2.3 softmax策略
该神经softmax策略的输入层是小车倒立摆的状态,维数为4;最后一层是softmax层,维数为2。有机器学习的同学都很清楚,softmax常常作为多分类器的最后一层。
一个最基本的概念是何为softmax层?
如图2.3,设layer2的输出为z, 所谓softmax层是指对z作用一个softmax函数。即:
对于softmax策略,策略梯度理论中的随机策略为: