上分的机器是什么意思

首页 > 娱乐 > 作者:YD1662024-06-06 07:07:18

2021 世界人工智能大会(WAIC2021)在上海开幕。

王者荣耀和腾讯AI Lab一同携手,带来了一个耀眼的小伙——“王者绝悟”,它是什么呢?其实是一款可以和人对战的智能机器人。会上,腾讯董事会主席马化腾也表示了“欢迎来战!(不服来战![机智])”。

王者绝悟和五位来自KPL的明星选手进行了四场比赛,最终以3:1的比分战胜了五位职业选手,真是机如其名,悟性超绝啊!

上分的机器是什么意思,(1)

王者绝悟终极挑战

其实,人工智能在近些年来的在一些人类的游戏里,已经屡创纪录,例如当年的alphaGo下赢了世界围棋冠军李世石和柯洁,AlphaStar在星际争霸中无情碾压人类选手,众多职业选手折戟旗下。不得不说,机器背后的人工智能技术确实突飞猛进,令人叹服!

上分的机器是什么意思,(2)

AlphaStar 争霸

那么这些游戏AI机器人背后,用到了什么技术呢?正是强化学习。

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏或者惩罚来学习到底如何行为。其实很类似人类儿童学习一样,做对了,父母给一颗糖,做错了,就打一巴掌。强化学习的目标是使智能体获得最大的奖赏,通过奖赏和惩罚,不断调整智能体的行为策略,来获取最大奖赏。

上分的机器是什么意思,(3)

基于这种技术思想,游戏AI通过强化学习,打成千上万局游戏,它的目标奖赏就是赢下游戏。AI在此过程不断学习,最终形成一套全面完善的策略模式,仔细一想,一个人大概打几百上千局,可能就成高手王者了,换成机器刷个几十万局,怪不得恐怖如斯...

话说回来,强化学习具体技术原理是怎么运行呢,就先从最简单的Q-learning算法说起吧。

上分的机器是什么意思,(4)

flappy bird 小鸟跳着飞过去

想必大家都玩过Flappy Bird这个游戏,就是通过控制前进的小鸟向上跳跃,来躲过参差不齐的管道障碍物。如果交给机器来打游戏,这就是一个典型的强化学习过程。

强化学习中,定义了状态(state)、动作(action)、奖赏(reward)这三个要素。智能体(Agent,也就是小鸟)会根据当前状态来采取动作(向上跳一下),并记录被反馈的奖赏,以便下次再到类似的状态时能采取更优的动作。那么机器人是如何学习的呢?下面就来介绍这一学习算法Q-learning。

我们依次给出如下定义:

小鸟状态(state):S=<x,y>,分别代表小鸟距离水管的水平距离和小鸟所处的高度。 小鸟动作(action):向上跳一下或者不动 小鸟奖赏(reward):小鸟每前进一步,奖赏 1;小鸟穿过水管,奖赏 2;若小鸟撞柱死亡,奖赏-10000。

Q-learning算法,其中Q的含义就是动作效用函数,简言之,就是用于衡量小鸟在某个状态下采用某个动作的好坏。我们将Q函数定义为一个三维数组: Reward = Q[x][y][action]

其中,x和y代表小鸟的状态,action为小鸟的动作,Reward是小鸟的奖赏。Q函数即,在某个状态下,小鸟选择跳或不跳获得的奖赏。通过这个函数,我们就能知道,小鸟在当前状态下,应该选择什么动作会使得获得奖励最大。在游戏中,就是让小鸟成功穿过水管,并一直活下去。Q-learning的目标就是通过不断的游戏,来学习这个函数。

那么这个函数如何得到呢,下面就是具体算法过程。

1. 首先,初始化Q函数这个三维数组 2. 重复以下过程,直到Q函数收敛: a:初始化状态S b:根据某个策略,根据概率p执行当前最大奖赏对应动作 c:执行完动作后,观察获得的奖赏R(S,a)和下一个状态S’ d:更新Q函数,Q[S,A] ←α*(R(S,a) γ* max Q[S’,a]) (1-α)*Q[S,A]

其中,在b步骤,通常会采用一个概率来决定小鸟是否上跳,那么这个概率如何决定呢?通常,我们会根据执行此动作的奖赏来看,选择奖赏大的动作,但是这样会导致一个问题,就是当前最优动作不代表全局最优动作,也就是说,当前这个动作奖励虽然少,但后面的奖励有可能会很多。

为了防止陷入眼前利益陷阱,所以我们设定一个随机概率,例如p=0.7的概率来执行最大奖赏的动作,那么就有30%的概率来执行另一个动作,来探索后面的步骤是否能带来更大的奖励。这个p是人工设定的,取决于你想让小鸟保守一点还是激进一点[奸笑]。

在执行完动作后进入d步骤,算法会更新Q函数。其中,α为学习率,α越大,Q函数更新换代的速度越快。R(S,a)为当前奖赏,max Q[S',a] 为下一状态获取的历史的最大奖赏,它是小鸟记忆里,在下一个位置S'能给出的最大效用值。

如果小鸟在过去的游戏中在位置S'的某个动作上得到过很大的奖赏,这个公式就可以让它提早地得知这个消息,并作出能吃到这个奖赏的动作[机智]。γ代表了折扣因子,越大代表小鸟越重视历史经验,越小则越重视眼前利益。这个γ也是人工设定的,依旧取决于你想让小鸟更相信过去还是更相信眼见为实[奸笑]。

算法不断重复2的动作,也就是不断重复游戏,来不断完善Q函数,最终收敛到一个理想状态,Q函数包含了所有的情况。如此,智能的小鸟就像人类一样,通过不断的学习来不断完善它的行为策略,最终可以飞很远很远。

上分的机器是什么意思,(5)

Q-learning的算法讲完了,是不是发现强化学习就是这么神奇。

当然,Q-learning在强化学习领域中只是最基础和简单的算法,而真正的在王者荣耀、星际争霸中,AI机器人面临的环境会更加复杂多变,智能体的状态会更多,可执行的动作也是成千上万种组合,远不止单纯的小鸟只有两种。这时候就需要更加复杂的算法和策略来训练这个AI机器人了。篇幅有限,暂且不表,后续的文章再一探究竟吧。

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.