超级玛丽操作教程,超级玛丽大神操作教学

首页 > 游戏 > 作者：YD1662024-04-19 12:31:50

从1-1到7-1，只要一条命，就能全部通过，而且操作几乎没有迟疑，如行云流水一般。

别人玩得这么溜，你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐？

不过，这个玩游戏的不是人，是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法

这个算法已经开源，是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

超级玛丽操作教程,超级玛丽大神操作教学(5)

异步一步Q-Learning：每个线程与自己的环境副本交互，在每一步中计算，用共享的渐变目标网络Q-Learning损失的梯度，就像DQN训练模型一样。

超级玛丽操作教程,超级玛丽大神操作教学(6)

异步多步Q-Learning：在正视图中通过明确的计算多步返回来运行，因为基于动量的方法反向传播来训练神经网络时，用正视图更容易一些。

超级玛丽操作教程,超级玛丽大神操作教学(7)

异步优势演员评论家算法：这是超级马里奥AI的核心。智能体中的两个部分，分别扮演演员和评论家，负责创造和监督。

和前面的异步多步Q-Learning一样，演员和评论家在正视图中运行，用相同的多步返回组合来更新策略和价值函数。

演员就像一个小孩子一样，会探索世界，做各种事情。

评论家则类似于前面小演员的爸爸妈妈，负责监督演员的举动，赞扬他做的好的地方，批评他做的不好的地方，告诉自己孩子：你和其他演员（别人家的孩子）差在哪儿了。

因此，演员希望一直能获得爸妈的赞扬，获得积极的反馈，就会根据爸妈的赞扬和批评不断修正自己的行为。

而对于异步优势演员评论家算法而言，则是为小演员提供了一所“学校”。如果小演员只在家里学习，可能学到的东西更片面，而且学习速度也比较慢。在异步优势演员评论家算法这所学校里，有“老师”和“同学”能让演员更快的学习，学到正确的知识。

游戏达人Viet Nguyen

最后，公布这个算法实现的是GitHub用户Viet Nguyen。

超级玛丽操作教程,超级玛丽大神操作教学(8)

上一页 123 下一页

栏目热文

超级玛丽怎么玩才能变厉害（超级玛丽有史以来最花式的玩法）
阅读全文>>2024-04-19 12:37:23
怎样才能玩超级玛丽（超级玛丽下载安装免费）
阅读全文>>2024-04-19 12:46:13
怎么玩正版的超级玛丽（新版超级玛丽在哪玩视频）
阅读全文>>2024-04-19 12:55:11
超级玛丽8-4怎么过图解（超级玛丽8-3怎么过图解）
阅读全文>>2024-04-19 12:49:46
超级玛丽怎么无限加命（超级玛丽最老版无限加命方法）
阅读全文>>2024-04-19 12:53:59
课程设计总结心得体会（课程设计自我总结万能版）
阅读全文>>2024-04-19 12:46:45
课程设计个人心得（课程设计心得体会3000字）
阅读全文>>2024-04-19 12:19:29
课程设计体会与收获（对于课程设计的体会和建议）
阅读全文>>2024-04-19 12:22:35
课程设计总结与感想（对于课程设计的体会和建议）
阅读全文>>2024-04-19 12:42:52
课程设计个人总结（课程设计总结范文模板大全）
阅读全文>>2024-04-19 12:26:15

文档排行

本站推荐

256g内存卡能录多长时间的视频（256g储存卡能录视频多长时间）
阅读全文>>2023-04-15 08:18:03
海水入侵的调查方法有哪些（海水入侵和海水倒灌有什么区别）
阅读全文>>2024-01-30 03:05:58
黑大衣配什么围巾（黑色大衣最洋气搭配）
阅读全文>>2022-10-25 22:11:28
氨制冷机房着火应急处理（机房意外起火应急处置流程）
阅读全文>>2023-07-30 09:43:23
无氧运动和有氧运动哪个减脂更快（无氧运动和有氧运动哪个减脂快）
阅读全文>>2022-10-25 15:45:36
艾饼馅料制作方法（做艾饼的配料方法）
阅读全文>>2022-11-19 12:14:22

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.