本文经授权转载自公众号:量子位(ID:QbitAI),作者:鱼羊 栗子 乾明
AI赌神完成了超进化!
两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:
在六人无限注德扑比赛上击败人类顶尖玩家。
结束了扑克AI只能一对一的局面,Pluribus成为了多人复杂游戏的里程碑。比起围棋,比起1v1德扑,多人德扑的难度要高得多。
而Pluribus不止赢,还赢得利落清爽,每手只花20秒,比人类职业选手快一倍。它对算力的要求,又比下围棋的AlphaGo低得多,运行只要两个CPU。
一共有15位顶尖人类高手,败在新晋AI赌神的手下。官方表示,如果每个筹码一美元,Pluribus平均每手牌能赢5美元,每小时能赢1000美元。
其中就有扑克界的传奇、世界扑克大赛 (WSOP) 冠军克里斯·弗格森。
他的“获奖感言”如下:
Pluribus是个非常难打的对手,任何一手牌都很难吃定它。
他还很擅长在最后一手牌上小额下注 (Thin Bet,指感觉自己的牌强于对手,然后押注来榨干对手) ,非常善于拿一手好牌榨取价值。
另外一位职业选手Jason Les说:
它诈唬的技能像怪兽一样,比任何人类的诈唬都高效。
AI赌神的两位爸爸,还是Libratus的爸爸,来自Facebook和CMU。他们带着这项光芒万丈的新成果,登上了Science。
在比赛中,Pluribus一开始拿到的是同花方块5和6,在第一轮下注结束,发出三张公共牌(黑桃4、方块2和方块10)后,还有3名其他选手在场,两位check、一位加注。
尽管这时Pluribus的牌面并不大,但它直接All-in了,是的,直接All-in了。
结果,其他几位高手纷纷弃牌而去,可以说一手诈唬玩得非常6了。
一、难在哪?
多年来扑克一直是AI领域难以解决的重大挑战。
因为扑克有隐藏信息,你不知道对手的牌。赢下比赛需要诈唬,需要许多国际象棋、围棋等等游戏里涉及不到的技能。
这是AI打牌的一个巨大障碍,而另一个障碍是多人。
从前AI打的游戏,要么是两人,要么是两队之间的零和博弈 (一方赢一方输) :跳棋、国际象棋、围棋、星际2还是DOTA 2,都是如此。
DeepMind AlphaStar星际2五分钟击败人类
这些游戏里面,AI都很成功,因为它可以做出一种纳什平衡 (Nash Equilibrium) 的策略:可以选出一系列动作,不管对手做什么,自己至少不会输。对手也一样。
不过,纳什平衡并不是总能找到:
首先,如果是观察对手的弱点来获得纳什平衡,比如对手常常出剪刀,AI就可以一直出石头,但对手也能根据AI的选择来调整自己的策略。这种方法需要的数据量也比较大。
其次,如果是多人游戏,即便是每个玩家都找到了自己的纳什平衡,加在一起也不一定是纳什平衡,因为游戏并不是零和博弈:
一个例子是,Lemonade Stand (柠檬水摊子) 游戏。每个玩家都要尽量远离其他玩家。纳什平衡是所有玩家距离都相等。可是每个玩家都会自己找一个平衡点来计算,那大家算出来的联合策略就不太可能是纳什平衡了。