超级玛丽操作教程,超级玛丽大神操作教学

首页 > 游戏 > 作者:YD1662024-04-19 12:31:50

从1-1到7-1,只要一条命,就能全部通过,而且操作几乎没有迟疑,如行云流水一般。

别人玩得这么溜,你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐?

不过,这个玩游戏的不是人,是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法

这个算法已经开源,是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

超级玛丽操作教程,超级玛丽大神操作教学(5)

异步一步Q-Learning:每个线程与自己的环境副本交互,在每一步中计算,用共享的渐变目标网络Q-Learning损失的梯度,就像DQN训练模型一样。

超级玛丽操作教程,超级玛丽大神操作教学(6)

异步多步Q-Learning:在正视图中通过明确的计算多步返回来运行,因为基于动量的方法反向传播来训练神经网络时,用正视图更容易一些。

超级玛丽操作教程,超级玛丽大神操作教学(7)

异步优势演员评论家算法:这是超级马里奥AI的核心。智能体中的两个部分,分别扮演演员和评论家,负责创造和监督。

和前面的异步多步Q-Learning一样,演员和评论家在正视图中运行,用相同的多步返回组合来更新策略和价值函数。

演员就像一个小孩子一样,会探索世界,做各种事情。

评论家则类似于前面小演员的爸爸妈妈,负责监督演员的举动,赞扬他做的好的地方,批评他做的不好的地方,告诉自己孩子:你和其他演员(别人家的孩子)差在哪儿了。

因此,演员希望一直能获得爸妈的赞扬,获得积极的反馈,就会根据爸妈的赞扬和批评不断修正自己的行为。

而对于异步优势演员评论家算法而言,则是为小演员提供了一所“学校”。如果小演员只在家里学习,可能学到的东西更片面,而且学习速度也比较慢。在异步优势演员评论家算法这所学校里,有“老师”和“同学”能让演员更快的学习,学到正确的知识。

游戏达人Viet Nguyen

最后,公布这个算法实现的是GitHub用户Viet Nguyen。

超级玛丽操作教程,超级玛丽大神操作教学(8)

上一页123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.