牛牛通用授权码:德州扑克:AI打牌也能完胜人类了

发布时间:2020-08-06 17:32    浏览次数:

德州扑保山棋牌下载,计算机就可以通过暴力枚举的方法来计算后面所有可能的下法,形成一颗巨大的搜索树,这颗搜索树可以列举出在当前状态下所有可能的下法,每个子搜索树都能独立求解,计算机就可以根据计算的结果安排对应的策略,从而达到最终的胜利。

举个栗子,比如,小明是一个普通中国家庭长大的小孩,在他的一生中,面临着很多个选择,如何才能在未来走向人生巅峰呢?如果可以列举出他未来所有的可能性,把每一步的选择拆解成子未来”,那么就可以计算出成功胜算最大的选择了。(例子可能不够恰当,理解意思就好,嘻嘻)

电脑:我压力太大了,哇的一声炸开花”

所以,科学家们利用一些剪枝、搜索等算法以缩减计算范围,从而在有限的时间内找出最佳策略。

不完美信息博弈类游戏

终于讲到了今天的主角保山棋牌下载,德州扑克。

德州扑克就是很典型的不完美信息博弈类游戏,它的策略设置中存在隐藏的信息。这类模型也有大量的应用场景,比如谈判、拍卖等等。不完美信息博弈不能如完美信息博弈那样通过分解而进行求解,因为一个子博弈的最佳策略可能依赖于其它尚未得到的子博弈的策略和输出。

换句话说,我们无法通过预测到对方下注的多少从而猜测到对方手里的牌是什么,因为也许对方的牌并不好,但他通过下注欺骗你,让你选择弃牌。所以,这件事对于没心机的计算机是相当困难的,对手第一手就allin了,但是他的牌到底好不好呢?

因此保山棋牌下载,当我看到AI在德州上也打败了人类,还些许有些小激动,maybe未来,机器人也可以具有女人的第六感了。

那AI到底是如何打败人类的呢?

论文中提及和很多很难理解(其实自己也看不太懂,逃)的算法,为了方便理解,我们以一个简单的博弈模型来举例,试图理解聪明的AI。

我们来设计一个简单的游戏。

游戏玩家有A和B两人。A可以抛一次硬币,正反面都只有自己才可以看到,抛完后他有两个选择:①sell,卖掉硬币;②play,和B玩游戏。

①A选择了sell:

if:硬币落在正面,A卖掉后得到五毛钱;

else:硬币落在反面,A卖掉后输掉五毛钱。

②A选择了play:游戏继续,接下来由B来猜硬币是落在正面还是反面:

if:B猜对了,A赔一元,B赚一元;

else:B猜错了,A赚一元,B赔一元。

此时,对B而言,就是一个不完美博弈,他无法从A选择play从而判断A手中的硬币是正面还是反面。

这时有两个极限情况,如果B总是猜正面,那么聪明的A就会变化策略,当他抛到正面时就卖掉硬币,如果抛到反面才玩游戏,这样B必然会输。此时,A的期望分数为:

0.5(抛到正面的概率)*0.5(选择sell的得分)+0.5(抛到反面的概率)*1(选择play的得分)=0.75

如果B总是猜反面,那么A抛到正面时就会选择play,得一元;抛到反面就会选择sell卖掉硬币,这样只赔五毛钱。所以A的期望是:

0.5(抛到正面的概率)*1(选择play的得分)+0.5(抛到反面的概率)*(-0.5)(选择sell的得分)=0.25

此时,出现一个知识点,叫纳什均衡,也就是B为了有效的降低损失,他最有效的策略就是以0.25的概率猜正面,以0.75的概率猜反面,这样可以确保他的胜算最大。

而博弈永远是一个动态的过程,如果B持续按照固有的策略做决策,那么A也会根据B的决策结果调整自己的策略。所以,对B最安全的方法,就是不断更新A卖掉硬币会得到的回报,持续寻找最优解。

我们聪明的计算机就是通过这样的方法动态的计算牌友们押注所带来的回报期望,进而持续更新对手的套路”,最终获得了「比赛过程中,人类选手整体上从未领先过」的效果。

看来,想要和AI斗智,人类的小脑筋maybe还需要转的更快才行嘞,也许没有套路才是最大的套路哦。

Copyright © 闲来十三水规则网站 版权所有