jovi物联是个啥（jovi物联怎么控制家电） - 原点资讯

jovi物联是个啥,jovi物联怎么控制家电(1)

只有一颗做手机的心，肯定是做不好手机的。

上周五凌晨，一场史诗级人机大战“悄然开场”，代表机器参赛的是Google旗下AI大公司DeepMind开发的全新AI程序AlphaStar，另外一方是2018WCS Circuit排名13、神族最强10人之一的人类选手MaNa。

结果也正如2年多前的围棋AI AlphaGo（同样由DeepMind开发）一般，AlphaStar以10：1的战绩，“完虐”人类职业高手。

要知道，“星际2”这款游戏比围棋又复杂上了许多：例如动作的种类，围棋只有361个下棋位置，星际2算上各种技能和走位控制，即便一个84x84分辨率的小屏幕，也有一亿多种可能的操作。同时，在玩“星际2”的过程中，玩家并不能看到整个战场的信息，你甚至还要猜测、估算对方的行动，来进行你自己的规划和决策。

这么难都能打赢人类，AI这几年来取得的进展“可见一斑”。

事实上，因为人类一直对AI不完全掌握，再加上AI技术和应用探索的过程中往往需要大量的数据，可以随意试错、拥有大量人类数据的电子游戏，一直被视为人工智能最好的实验平台之一。因为游戏本身就是认为创造的，用以帮助人来习得某个技能或者测试技能水平的工具。

在某些特定的人工智能方向，如自动驾驶，人们甚至还会专门认为创造一个类似于电子游戏的虚拟世界，用来作为训练人工智能的环境。

除了上文所提到的DeepMind之外，很多国内公司实际上也在进行着在游戏环境中训练人工智能的尝试，其中就包括了vivo，他们所瞄准的正是国内最多人玩的手游之一：《王者荣耀》

NO.01

训练AI打《王者荣耀》这件事

代表vivo向《王者荣耀》发起AI冲击的，是去年7月成立的“vivo AI Lab”，后者的建立是vivo在2018年年初的vivo战略发布会上就已经做的决定。

jovi物联是个啥,jovi物联怎么控制家电(2)

本次“vivo AILab”所使用的强化学习架构

在本次对《王者荣耀》挑战的背后，“vivo AI Lab”专门提出并使用了一种全新的分层强化学习模型。这种神经网络模型既能够通过模仿人类来制定宏观策略，同时还能根据强化学习来保证微观操作。尤其适应即时战略游戏（RTS）对于操作的需求。

就《王者荣耀》而言，关键性的大局观包括单元“去哪儿”、“应该何时去支援队友”、“队友应该何时一起参加团战”等。重要的精细化操作则包括“何时闪现”、“何时交出大招”、“多人团战中应该如何精细走位”、“团战中应该如何释放技能”等。

jovi物联是个啥,jovi物联怎么控制家电(3)

这两种操作需求实际上相差很大，大局观层面其实很难量化和计算，所以主要的是先参考人类的数据，进行模仿学习和专家引导。

在精细化操作的时候，“vivo AI Lab”直接使用了一种被叫做“多智能体”的强化学习方法。你可以把它看做成百上千个机器人在虚拟团战走位、技能释放等操作，其中只有表现最好的能够留下来。通过不断的对垒，机器自然而然就学会了最优的操作方式。

jovi物联是个啥,jovi物联怎么控制家电(4)

jovi物联是个啥,jovi物联怎么控制家电