cs15怎么加不了机器人,cs15机器人补丁怎么装

首页 > 实用技巧 > 作者:YD1662024-01-27 08:09:59

cs15怎么加不了机器人,cs15机器人补丁怎么装(1)

【新智元导读】德扑被认为是难度远超其他游戏的人工智能挑战项目。然而CMU和Facebook联合打造的AI赌神Pluribus,训练成本150美元、8天训练时间即吊打职业选手,每小时赢1000美元!如此强悍的AI是如何炼成的?要研究其算法该如何入手?有请幕后研究人员为您解答。

人们发现规则明确的游戏,即使像星际这样战局多变的即时战略游戏,人类也无法战胜拥有碾压性算力优势的计算机。于是有人寄希望于带有运气成分、需要大量心里战的德州扑克。

cs15怎么加不了机器人,cs15机器人补丁怎么装(2)

德州扑克 (Texas hold'em,有时也简称为Hold'em或Holdem),简称德扑,是世界上最流行的公牌扑克衍生游戏,也是国际扑克比赛的正式竞赛项目之一。德州扑克是位置顺序影响最大的扑克衍生游戏之一,因为所有轮数的下注次序维持不变。它也是美国多数赌场内最受欢迎的扑克牌类游戏,在美国以外的地区也十分流行,理论上一桌同时最多可容纳22位(若不销牌则为23位)牌手,但一般是二至十人一桌。
赌神下凡:1小时赢7000块,一周炼成百万富翁

扑克是典型的不完美信息博弈游戏。德州扑克中,玩家无法获知已发生事件的全部信息,一对一无限注中包含10^160个决策点(decision points)。

每个点需要根据出牌方的理解,产生不同的路径。这种不完整信息的特质,使得德州扑克成为难度远超其他游戏的人工智能挑战项目。

然而,其实结局早就在暗中被注定了。40年来,科学家就一直没有停止过对德州的研究。

10年前,计算机第一次在有限制的德州扑克游戏中,战胜了人类顶级选手;4年前,来自加拿大阿尔伯塔大学的研究团队开发出Cepheus(仙王座),一个号称人类无法战胜的扑克机器人;2年前,也就是2017年,加拿大和捷克的科学家在arXiv上发表论文,提出名为DeepStack的算法,称可以让人工智能在比赛中拥有“直觉”。

而前两天,在CMU科学家的努力下,人工智能已经在六人无限注德扑比赛上击败所有人类顶尖玩家。只存在于电影电视剧中的赌神,现在真实的存在于现实世界了

cs15怎么加不了机器人,cs15机器人补丁怎么装(3)

https://www.nature.com/articles/d41586-019-02156-9

cs15怎么加不了机器人,cs15机器人补丁怎么装(4)

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

cs15怎么加不了机器人,cs15机器人补丁怎么装(5)

https://www.techmeme.com/

而这个赌神Pluribus的“炼成”却很像一个寒门子弟黑马突袭的故事:用来训练Pluribus的电脑1000块人民币不到,在2块CPU上实施运行。

cs15怎么加不了机器人,cs15机器人补丁怎么装(6)

上图显示了在64核CPU训练期间,Pluribus的蓝图策略的改进过程。绩效是根据训练的最终快照来衡量的。

正是凭着这么简陋的装备,Pluribus一小时赢了人类将近7000人民币。按照这样的速度,AI通过德州成为百万富翁,只需要不到一周的时间。

赌神是怎么炼成的?幕后科学家在线答疑

显然,赌神AI引爆了大众情绪。技术人员最关心的,除了它能赢钱外,恐怕就是它背后的运作机制了。

近日,这位“AI赌神” Pluribus的幕后推手,Facebook AI Research研究科学家、CMU计算机科学博士在读Noam Brown,以及CMU教授Tuomas Sandholm,共同在Reddit发声,揭秘赌神AI幕后花絮,并回答网友提问。大伙儿热情高涨,贡献了超过130个回帖。

会对扑克网站造成影响吗?

最为全世界最受欢迎的扑克游戏之一,德州扑克在美国及世界范围内拥有大量的玩家。大家非常关心AI赌神以后,会不会在短时间内对线上德州扑克产生影响(言外之意:是否会有老千用人工智能冒充真人用户)?此外,Reddit用户DlC3R还问了另一个大家很关心的问题:算法之间的博弈何时开始?

Noam认为,现在主流扑克网站上,都有在用先进的机器人检测技术,并且已经非常成熟,用机器人出老千的风险太大,一点都不值当。但肯定会对职业扑克(例如选手、行业、俱乐部等)产生影响,起码俱乐部可以使用人工智能来训练职业扑克选手。

不过Noam还补充了一句:我们只关注人工智能而非扑克(言外之意,我们只是痴迷与技术钻研的人,其它的,也着实没有时间和精力去顾及许多啦!)

解释一下如何使用AIVAT来减少方差因子

Noam称他们估计机器人的胜率为5bb/100,也就是说,在50美元/100美元的盲注和10000美元的筹码下,如果每个筹码等值1美元,Pluribus平均每手赢得5美元的奖金,这样的话每小时可以赚到1000美元(约等于7000人民币)。

德州扑克盈利计算单位是“每百局赢利大盲注,BB/100(p值为0.021)”。优秀的职业选手能达到3-7BB/100手,显然AI的这个胜率已经非常高了!

如果没有方差减少,那么专业人士可能需要在连续4个月内,每周5天、每天8小时打牌,才能获得有价值的样本量。

感谢阿尔伯塔大学和布拉格查尔斯大学的研究人员开发了名为AIVAT的扑克方差减少算法,最终减少了约12.5倍的手数。

AIVAT可以有效的减少运气的成分,例如,如果机器人有一手牌非常强,AIVAT就会从奖金里减去一个基线值来抵消运气成分。

上面的视频中显示了蒙特卡罗CFR算法通过评估实际和假设行动值,来更新遍历者策略的过程。在Pluribus中,出于优化目的,这种遍历实际上是以深度优先的方式完成的。

研究Pluribus算法应该从何处入手?

一位名为smoke_carrot的人显然是个比较好学的人。他想要认真研究Pluribus背后的算法,但发现Pluribus所使用的方法跟他平时接触的不一样,希望研究人员能给一些指导建议,例如该从哪儿入手?该看哪方面的书籍?

Tuomas教授肯定了这位smoke_carrot的论断,确实Pluribus的算法跟强化学习、MCTS完全不同。而且,目前在解决不完美信息游戏这方面,没有很好的教材。加之这个领域发展过于迅速,以至于2010年到2015年的论文都过时了。

他建议有兴趣想进行深入研究的同学,应该去阅读本次研究的相关论文。目前最新发布的论文还是可以免费获取,这个是需要认真研读的!

随后Tuomas教授精心挑选了一些相关论文以及报告,方便大家进行学习研究:

他还补充了2008年以及之前关于不完全信息游戏的计算解决的精选论文:

如果你对此感兴趣,希望看到更多讨论,请移步Reddit:

https://www.reddit.com/r/MachineLearning/comments/ceece3/ama_we_are_noam_brown_and_tuomas_sandholm/

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.