wpe零基础自学,wpe专业版使用教程

首页 > 教育 > 作者：YD1662024-05-20 23:26:50

强化学习的最终目的就是要学会一个使得智能体能够最大化期望回报的 policy，其中的回报就是对奖励进行衰减求和：

和期望回报紧密相关的还有两个概念，一个是动作状态价值函数（观测到状态，做完决策，选中动作）：

另一个是状态价值函数（可以理解为比如下围棋时评价当前状态的胜率）：

了解了上面的定义后我们可以停下来思考一下，强化学习学什么？

主要想学的肯定就是策略 policy 函数，也就是从状态到动作的一个映射，如果直接学习它，那就能够拿来使用了，这类方法也叫做基于 policy 的方法；如果采用间接点的方式，也可以学习值函数，然后根据值的大小来选择动作，这类方法也叫做基于 value 的方法。当然，通常基于 policy 的方法也会涉及到值函数的近似。

从策略梯度到 PPO

我们要学一个策略函数，但是并不知道策略函数长什样，怎么去定义它才是合适的。好在有了深度学习这一工具，我们可以无脑用一个神经网络来近似策略函数，然后通过优化神经网络参数的方式来学习得到一个策略函数。

wpe零基础自学,wpe专业版使用教程(13)

优化神经网络的参数需要有个目标函数，如果一个策略很好，那么状态价值的均值应当很大，因此我们定义目标函数：

这个目标函数排除掉了状态的因素，只依赖于策略网络的参数；策略越好，则越大。所以策略学习可以描述为这样一个优化问题：

我们希望通过对策略网络参数的更新，使得目标函数越来越大，也就意味着策略网络越来越强。想要求解最大化问题，显然可以用梯度上升更新模型的参数。值得庆幸的是，策略函数的梯度还能被推导出来：

策略梯度定理的详细推导这里就不展开了，我们需要记住的是能计算出目标函数关于参数的梯度，那就能用来更新参数，也就能学习出策略函数了。

当然这里面还涉及动作价值函数的估计，如果用实际观测的回报来近似，那就是 REINFORE 算法，如果再用一个神经网络来近似这个价值函数，那就是演员-评论家算法。PS：在实际使用中，策略梯度中的 Q 有多种不同的替代形式，常见效果比较好的形式是采用优势函数（状态动作值函数减去状态值函数）来替代。

传统的策略梯度算法的局限性在于它是 sample-inefficient 的，也就是说每次获取的训练数据只被用来更新一次模型的参数后就丢掉了，因此 PPO 算法的主要改进在于构造了新的目标函数（避免较大的参数变化），使得每次获取的训练数据能够被用于多次的参数更新。

wpe零基础自学,wpe专业版使用教程(14)

其中比值函数为当前策略和历史策略在状态下实施动作的概率的比值

wpe零基础自学,wpe专业版使用教程(15)

通过这一比值也就能够评估新旧策略的差异性，从而能够保证策略函数在更新参数时不会跟旧策略的差异太大。有时间的同学也可以对比值在不同区间时目标函数的情况进行考虑，也就是如下表的情况（下面的就是上面提到的比值函数）。

wpe零基础自学,wpe专业版使用教程(16)

上一页 1 2 345 下一页

栏目热文

wpe教程全集（wpe新手入门教程）
阅读全文>>2024-05-20 22:56:02
adobe证书有用吗（adobe证书有必要考吗）
阅读全文>>2024-05-20 23:42:17
adobe公司有多牛（adobe公司有多少软件）
阅读全文>>2024-05-20 23:17:00
adobe有多厉害（adobe到底有多强大）
阅读全文>>2024-05-20 23:01:39
adobe的收费标准（adobe是付费的吗）
阅读全文>>2024-05-20 23:35:55
wpe教程图解（wpe专业版使用教程）
阅读全文>>2024-05-20 23:37:40
wpe神途刷元宝教程（利用wpe刷游戏道具的思路）
阅读全文>>2024-05-20 23:27:34
wpe中文版使用教程（wpe怎么进入）
阅读全文>>2024-05-20 23:14:36
经典鬼故事300字（简短鬼故事3000字）
阅读全文>>2024-05-20 23:01:49
数据透视表怎么转换成一般表格（怎么把数据透视表变成正常的表格）
阅读全文>>2024-05-20 23:38:56

文档排行

本站推荐

工地卖饭摆摊需要什么（工地摆摊卖饭怎样选位置）
阅读全文>>2024-02-03 12:52:07
流星蝴蝶剑武功排名（古龙十大高手排名）
阅读全文>>2022-12-27 22:13:52
功夫足球高清粤语版大结局（功夫足球粤语版高清播放）
阅读全文>>2022-11-03 00:14:30
我的世界怎么设置物品一个一个拿（我的世界怎么在物品下面加说明）
阅读全文>>2024-01-03 04:07:29
茜茜公主的真实后半生（茜茜公主照片）
阅读全文>>2022-11-27 13:07:02
社保究竟是保什么（社保到底能保障什么）
阅读全文>>2022-10-29 04:53:36

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.