跳棋1v1稳赢,跳棋1v1稳赢三格

首页 > 经验 > 作者:YD1662022-11-14 05:48:46

所以,Pluribus并没有采取博弈论的思路找到不输的平衡策略。而是以打败人类为目标。

二、决策之道

要做到这一点,仅靠知名前辈Libratus的反事实遗憾最小化(CFR)算法可不行。

Libratus对抗游戏隐藏信息的策略是让AI左右互搏,自己跟自己对战,采用随机策略,在每局过后看看游戏中有哪几手是让人后悔的,而后再尝试不同的战略,在决策点上复盘。

在双人对战当中,这样的策略效果拔群。

但在不完美信息博弈中,每增加一个玩家,游戏的复杂度都会呈指数增长,已有的技术无法应对。

Pluribus采用了迭代的蒙特卡洛CFR(MCCFR)。核心思想同样是自我学习,左右手互搏,不用任何人类或前辈AI的游戏数据作为输入。

但它的特别之处在于它制定了一个蓝图策略,在与对手比赛的过程中,Pluribus也会根据实际情况实时搜索更好的策略来改进蓝图策略。

也就是说,它的行动可以分成两个阶段。

第一阶段:蓝图策略

无限注德州扑克中有太多决策点可以单独推理,为了降低游戏的复杂性,首先要进行抽象,即消除一些值得商榷的行动。

跳棋1v1稳赢,跳棋1v1稳赢三格(5)

Pluribus使用了两种抽象:动作抽象和信息抽象。

动作抽象减少了AI需要考虑的不同动作的数量。无限注德州扑克通常允许在100美元到10000美元之间进行全价投注,投注200美元和投注201美元之间几乎没有区别。

所以,Pluribus在任何给定的决策点只需要考虑几种不同的下注大小。它所考虑的投注数量在1到14之间变化,具体多少取决于实际情况。

如果对手投注150美元,而Pluribus训练的过程中只投注100或200美元,那又该怎么办?

这时,Pluribus会依赖下文将提到的搜索算法。

信息抽象则是把策略上相似的牌局放在一起,并对其进行相同处理。这会使游戏的复杂性大大降低,不过也可能消除一些超人类表现中非常重要的微妙差异。

因此,在与人类进行实际比赛时,Pluribus仅用信息抽象来推断未来下注轮次的情况,而不会用它来实际进行下注。同时,信息抽象也适用于自我博弈。

而蓝图策略的重头戏,就是迭代的蒙特卡洛反事实遗憾最小化算法(MCCFR)。在算法的每次迭代中,MCCFR将一个玩家指定为“遍历者”,其当前策略在迭代时更新。

在迭代开始时,MCCFR根据所有玩家的当前策略随机模拟一手牌。一旦这一手牌完成,算法就会开始review遍历者的每一个决策,并通过选择其他可能操作来评估这一手牌做得多好或多坏。接着,AI会评估打出不同的手牌后可能做出的每一个假想决策的优点。

遍历者在选择一手牌后的收获,与遍历者在迭代中的期望收获之间的差异,会被添加到行动的“后悔点”(反事实遗憾)中。

在迭代结束时,遍历者的策略会更新,此后它选择更高反事实遗憾动作的概率会更高。

第二阶段:深度限制搜索

由于无限注德州扑克的规模和复杂性,整个游戏的蓝图策略给出的决策会比较模糊。

实际上,Pluribus只在第一轮下注时根据制定好的蓝图来进行游戏,在第一轮之后——甚至是第一轮当中,如果对手选择的赌注大小与蓝图动作抽象中的大小完全不同——Pluribus会进行实时搜索,制定更精细的策略。

蒙特卡洛树搜索、双层搜索、alpha-beta修剪搜索……这些在完美信息游戏中表现出色的实时搜索在德州扑克面前都会扑街,因为它们并不考虑对手转移策略的能力。

Pluribus使用的方法是,明确地认为所有玩家都可能选择到子游戏叶子节点之外的不同策略。

算法假设每个玩家在到达叶子结点时,可以选择四种不同的策略来进行下面的游戏,其中包括预先计算的蓝图策略,修改后偏向于弃牌的蓝图策略,修改后偏向于跟注的蓝图策略,以及修改后偏向于加注的蓝图策略。

跳棋1v1稳赢,跳棋1v1稳赢三格(6)

这样的搜索方法能找到一种更平衡的策略,从而产生更强的整体表现。

而另一个大挑战是在德州扑克这样的游戏当中,玩家的策略有时取决于对手如何看待她/他的游戏玩法。

为了应对这一点,Pluribus根据其策略跟踪每一手牌达到当前情况的概率。无论Pluribus实际持有哪手牌,它都会优先计算出每一手牌的动作,一旦计算出所有的平衡策略,它就会为它实际持有的手牌执行一个动作。

跳棋1v1稳赢,跳棋1v1稳赢三格(7)

令人惊叹的是,Pluribus的训练成本非常低。研究者只在64核的服务器上跑了8天,就成功训练出了Pluribus的蓝图策略,需要的内存空间小于512GB,还不用GPU。

换句话说,Pluribus的训练费用都不到150美元!

进行游戏时,Pluribus也只需运行在2个CPU上,使用不到128GB的内存。相比之下,在2016年 AlphaGo对阵李世石的时候,使用了1920块CPU和280个GPU进行实时搜索。

在6人牌局中,Pluribus平均每回合只需要20秒的时间,比顶尖人类选手还快一倍。如此策略、如此小成本、如此速度,成绩会如何?

三、全面超越人类职业高手

为了评估Pluribus的实力,研究人员找来了一群德扑界的顶尖高手,有2000年世界扑克锦标赛冠军Chris “Jesus” Ferguson、2012年世界锦标赛冠军Greg Merson、四届世界扑克巡回赛锦标赛冠军Darren Elias等等。

这些顶尖高手,每一位都在专业的德州扑克比赛中赢了超过100万美元,大多数都赢了超过1000万美元。

具体的测试中,研究者一共设计了两种牌局。一种是5个人类和一个AI,一种是5个AI和一个人类。每一手牌开始的时候,筹码是10000个,小盲50,大盲100。

跳棋1v1稳赢,跳棋1v1稳赢三格(8)

上一页123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.