极小极大搜索过程.docx
- 文档编号:5112141
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:22
- 大小:77.18KB
极小极大搜索过程.docx
《极小极大搜索过程.docx》由会员分享,可在线阅读,更多相关《极小极大搜索过程.docx(22页珍藏版)》请在冰豆网上搜索。
极小极大搜索过程
极小极大搜索过程
2011-03-3009:
59
转载自shengtingjiaju
最终编辑shengtingjiaju
极小极大搜索方法是博弈树搜索的基本方法,现在博弈树搜索中最常用的α-β剪枝搜索方法,就是从这一方法发展而来的。
首先假定,有一个评价函数可以对所有的棋局进行评估。
当评价函数值大于0时,表示棋局对我方有利,对对方不利。
当评价函数小于0时,表示棋局对我方不利,对对方有利。
而评价函数值越大,表示对我方越有利。
当评价函数值等于正无穷大时,表示我方必胜。
评价函数值越小,表示对我方越不利。
当评价函数值等于负无穷大时,表示对方必胜。
假设双方都是对弈高手,在只看一步棋的情况下,我方一定走评价函数值最大的一步棋,而对方一定走评价函数值最小的一步棋。
会下棋的读者都知道,在只看一步的情况下最好的棋,从全局来说不一定就好,还可能很不好。
因此为了走出好棋,必须多看几步,从多种可能状态中选择一步好棋。
想一想人是如何下棋的呢?
人实际上采用的是一种试探性的方法。
首先假定走了一步棋,看对方会有那些应法,然后再根据对方的每一种应法,看我方是否有好的回应......这一过程一直进行下去,直到若干步以后,找到了一个满意的走法为止。
初学者可能只能看一、两个轮次,而高手则可以看几个,甚至十几个轮次。
极小极大搜索方法,模拟的就是人的这样一种思维过程。
当轮到我方走棋时,首先按照一定的搜索深度生成出给定深度d以内的所有状态,计算所有叶节点的评价函数值。
然后从d-1层节点开始逆向计算:
对于我方要走的节点(用MAX标记,称为极大节点)取其子节点中的最大值为该节点的值(因为我方总是选择对我方有利的棋);对于对方要走的节点(用MIN标记,称为极小节点)取其子节点中的最小值为该节点的值(对方总是选择对我方不利的棋)。
一直到计算出根节点的值为止。
获得根节点取值的那一分枝,即为所选择的最佳走步。
在图3.5所示的例子中,假定搜索深度为2,D~J是7个叶节点,在它们下边括号中的数字是这些节点的评价函数值(假定可以计算得到)。
A、B、C是三个极小节点,它们分别取各自子节点最小值为自己的值,得到三个节点的值分别为-6、-2和-4。
s是极大节点,从A、B、C三个节点的值中取最大值,得到-2。
由于-2来自于节点B,所以搜索的结果是应选择B作为我方的走步。
对于我方来说,-2并不是一个好的结果,但却是在对方不犯错误的情况下,对我方最有利的结果。
因为从图中可以看出,如果选择A为我方的走步,如果对方回应D的话,我方可以得到评价值9,固然对我方有利。
但是如果对方是一个高手的话,他一定回选择E,而不是D。
在这种情况下,我方只能得到-6,结果岂不是更差。
因此,极小极大过程是一种假定对手每次回应都正确的情况下,如何从中找出对我方最有利的走步的搜索方法。
值得注意的是,不管设定的搜索深度是多少层,经过一次搜索以后,只决定了我方一步棋的走法。
等到对方回应一步棋之后,需要在新的棋局下重新进行搜索,来决定下一步棋如何走。
极小极大搜索策略是考虑双方对弈若干步之后,从可能的走步中选一步相对好棋的着法来走,即在有限的搜索深度范围内进行求解。
为此要定义一个静态估计函数f,以便对棋局的势态(节点)作出优劣估值,这个函数可根据势态优劣特征来定义(主要用于对端节点的"价值"进行度量)。
一般规定有利于MAX的势态,f(p)取正值,有利于MIN的势态,f(p)取负值,势均力敌的势态,f(p)取0值。
若f(p)=+∞,则表示MAX赢,若f(p)=-∞,则表示MIN赢。
下面的讨论规定:
顶节点深度d=0,MAX代表程序方,MIN代表对手方,MAX先走。
图3.5是一个表示考虑两步棋的例子,图中端节点给出的数字是用静态函数f(p)计算得到,其他节点不用f(p)估计,因为不够精确,而应用倒推的办法取值。
例如A、B、C是MIN走步的节点,MAX应考虑最坏的情况,故其估值应分别取其子节点f(p)估值中最小者,而s是MAX走步的节点,可考虑最好的情况,故估值应取A、B、C值中的最大者。
这样求得f(s)=-2,依此确定了相对较优的走步应是走向B,因为从B出发,对手不可能产生比f(s)=-2更差的效果。
实际上可根据资源条件,考虑更多层次的搜索过程,从而可得到更准确的倒推值,供MAX选取更正确的走步。
当用端节点的静态估计函数f(p)求倒推值时,两位选手应采取不同的策略,从下往上逐层交替使用极小和极大的选值方法,故称极小极大过程。
图3.5f(p)求值过程
过程MINIMAX:
①T:
=(s,MAX),OPEN:
=(s),CLOSED:
=();开始时树由初始节点构成,OPEN表只含有s。
②LOOP1:
IFOPEN=()THENGOLOOP2;
③n:
=FIRST(OPEN),REMOVE(n,OPEN),ADD(n,CLOSED);
④IFn可直接判定为赢、输或平局
THENf(n):
=∞∨-∞∨0,GOLOOP1
ELSEEXPAND(n)→{ni},ADD({
},T)
IFd(ni)<kTHENADD({
},OPEN),GOLOOP1
ELSE计算f(
),GOLOOP1;nI达到深度k,计算各端节点f值。
⑤LOOP2:
IFCLOSED=NILTHENGOLOOP3
ELSE
:
=FIRST(CLOSED);
⑥IF(
∈MAX)∧(f(
∈MIN)有值)
THENf(
):
=max{f(
)},REMOVE(
,CLOSED);若MAX所有子节点均有值,则该MAX取其极大值。
IF(
∈MIN)∧(f(
∈MAX)有值)
THENf(
):
=min{f(
)},REMOVE(
,CLOSED);若MIN所有子节点均有值,则该MIN取其极小值。
⑦GOLOOP2;
⑧LOOP3:
IFf(s)≠NILTHENEXIT(END∨M(Move,T));s有值,则结束或标记走步。
该算法分两个阶段进行,第一阶段②-④是用宽度优先法生成规定深度的全部博弈树,然后对其所有端节点计算其静态估计函数值。
第二阶段⑥-⑧是从底向上逐级求非端节点的倒推估计值,直到求出初始节点的倒推值f(s)为止,此时
其中
表示深度为k的端节点。
再由f(s)即可选得相对较好的走步来,过程遂造结束。
等对手响应走步后,再以当前的状态作为起始状态s,重复调用该过程。
下面通过最简单的3×3棋盘的一字棋为例来说明算法的应用过程。
在九宫格棋盘上,两位选手轮流在棋盘上摆各自的棋子(每次一枚),谁先取得三子一线的结果就取胜。
设程序方MAX的棋子用(×)表示,对手MIN的棋子用(○)表示,MAX先走。
静态估计函数f(p)规定如下:
若p对任何一方来说都不是获胜的格局,则
f(p)=(所有空格都放上MAX的棋子之后,MAX的三子成线(行、列、对角)的总
-(所有空格都放上MIN的棋子之后,MIN的三子成线(行、列、对角)的总数)
若p是MAX获胜的格局,则f(p)=∞;
若p是MIN获胜的格局,则f(p)=-∞。
例如,当p的格局如下时,则可得f(p)=6-4=2;
设考虑走两步的搜索过程,利用棋盘对称性的条件,则第一次调用算法产生的搜索树如图3.6所示,图中端节点下面是计算的f(p)值,非端节点的倒推值标记在圆圈内。
为了使初始节点具有最大的倒推值,可以看出第一步的最好着法是把棋子下在中央位置。
图3.6一字棋第一阶段搜索树
设MAX走完第一步后,MAX的对手是在×之上的格子下子,这时MAX就要在新格局下调用算法,第二次产生的搜索树如图3.7所示。
类似的第三次的搜索树如图3.8所示。
至此MAX走完最好的走步后,不论MIN怎么走,都无法挽回败局,因此只好认输了,否则还要进行第四轮回的搜索。
图3.7一字棋第二阶段搜索树
图3.8一字棋第三阶段搜索树
有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。
两个
人轮流从堆中取物体若干,规定最后取光物体者取胜。
这是我国民间很古老的一个游戏
,别看这游戏极其简单,却蕴含着深刻的数学原理。
下面我们来分析一下要如何才能够
取胜。
(一)巴什博奕(BashGame):
只有一堆n个物品,两个人轮流从这堆物品中取物,规
定每次至少取一个,最多取m个。
最后取光者得胜。
显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,
后取者都能够一次拿走剩余的物品,后者取胜。
因此我们发现了如何取胜的法则:
如果
n=(m+1)r+s,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走
k(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的
取法,那么先取者肯定获胜。
总之,要保持给对手留下(m+1)的倍数,就能最后获胜。
这个游戏还可以有一种变相的玩法:
两个人轮流报数,每次至少报一个,最多报十
个,谁能报到100者胜。
(二)威佐夫博奕(WythoffGame):
有两堆各若干个物品,两个人轮流从某一堆或同
时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。
这种情况下是颇为复杂的。
我们用(ak,bk)(ak≤bk,k=0,1,2,…,n)表示
两堆物品的数量并称其为局势,如果甲面对(0,0),那么甲已经输了,这种局势我们
称为奇异局势。
前几个奇异局势是:
(0,0)、(1,2)、(3,5)、(4,7)、(6,
10)、(8,13)、(9,15)、(11,18)、(12,20)。
可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而bk=ak+k,奇异局势有
如下三条性质:
1。
任何自然数都包含在一个且仅有一个奇异局势中。
由于ak是未在前面出现过的最小自然数,所以有ak>ak-1,而bk=ak+k>ak
-1+k-1=bk-1>ak-1。
所以性质1。
成立。
2。
任意操作都可将奇异局势变为非奇异局势。
事实上,若只改变奇异局势(ak,bk)的某一个分量,那么另一个分量不可能在其
他奇异局势中,所以必然是非奇异局势。
如果使(ak,bk)的两个分量同时减少,则由
于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势。
3。
采用适当的方法,可以将非奇异局势变为奇异局势。
假设面对的局势是(a,b),若b=a,则同时从两堆中取走a个物体,就变为了
奇异局势(0,0);如果a=ak,b>bk,那么,取走b –bk个物体,即变为奇异局
势;如果a=ak, b 势(ab–ak,ab–ak+b–ak);如果a>ak,b=ak+k,则从第一堆中拿走多余 的数量a–ak即可;如果a 从第二堆里面拿走b–bj即可;第二种,a=bj(j j即可。 从如上性质可知,两个人如果都采用正确操作,那么面对非奇异局势,先拿者必胜 ;反之,则后拿者取胜。 那么任给一个局势(a,b),怎样判断它是不是奇异局势呢? 我们有如下公式: ak=[k(1+√5)/2],bk=ak+k (k=0,1,2,…,n方括号表示取整函数) 奇妙的是其中出现了黄金分割数(1+√5)/2=1。 618…,因此,由ak,bk组成的矩形近 似为黄金矩形,由于2/(1+√5)=(√5-1)/2,可以先求出j=[a(√5-1)/2],若a=[ j(1+√5)/2],那么a=aj,bj=aj+j,若不等于,那么a=aj+1,bj+1=aj+1 +j+1,若都不是,那么就不是奇异局势。 然后再按照上述法则进行,一定会遇到奇异 局势。 (三)尼姆博奕(NimmGame): 有三堆各若干个物品,两个人轮流从某一堆取任意多的 物品,规定每次至少取一个,多者不限,最后取光者得胜。 这种情况最有意思,它与二进制有密切关系,我们用(a,b,c)表示某种局势,首 先(0,0,0)显然是奇异局势,无论谁面对奇异局势,都必然失败。 第二种奇异局势是 (0,n,n),只要与对手拿走一样多的物品,最后都将导致(0,0,0)。 仔细分析一 下,(1,2,3)也是奇异局势,无论对手如何拿,接下来都可以变为(0,n,n)的情 形。 计算机算法里面有一种叫做按位模2加,也叫做异或的运算,我们用符号(+)表示 这种运算。 这种运算和一般加法不同的一点是1+1=0。 先看(1,2,3)的按位模2加的结 果: 1=二进制01 2=二进制10 3=二进制11(+) ——————— 0=二进制00(注意不进位) 对于奇异局势(0,n,n)也一样,结果也是0。 任何奇异局势(a,b,c)都有a(+)b(+)c=0。 如果我们面对的是一个非奇异局势(a,b,c),要如何变为奇异局势呢? 假设a a(+)b(+)(a(+) b)=(a(+)a)(+)(b(+)b)=0(+)0=0。 要将c变为a(+)b,只要从c中减去c-( a(+)b)即可。 例1。 (14,21,39),14(+)21=27,39-27=12,所以从39中拿走12个物体即可达 到奇异局势(14,21,27)。 例2。 (55,81,121),55(+)81=102,121-102=19,所以从121中拿走19个物品 就形成了奇异局势(55,81,102)。 例3。 (29,45,58),29(+)45=48,58-48=10,从58中拿走10个,变为(29,4 5,48)。 例4。 我们来实际进行一盘比赛看看: 甲: (7,8,9)->(1,8,9)奇异局势 乙: (1,8,9)->(1,8,4) 甲: (1,8,4)->(1,5,4)奇异局势 乙: (1,5,4)->(1,4,4) 甲: (1,4,4)->(0,4,4)奇异局势 乙: (0,4,4)->(0,4,2) 甲: (0.4,2)->(0,2,2)奇异局势 乙: (0,2,2)->(0,2,1) 甲: (0,2,1)->(0,1,1)奇异局势 乙: (0,1,1)->(0,1,0) 甲: (0,1,0)->(0,0,0)奇异局势 甲胜。 取火柴的游戏 题目1: 今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 可将一堆全取走,但不可不取,最后取完者为胜,求必胜的方法。 题目2: 今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 可将一堆全取走,但不可不取,最后取完者为负,求必胜的方法。 嘿嘿,这个游戏我早就见识过了。 小时候用珠算玩这个游戏: 第一档拨一个,第二档拨两个,依次直到第五档拨五个。 然后两个人就轮流再把棋子拨下来,谁要是最后一个拨谁就赢。 有一次暑假看见两个小孩子在玩这个游戏,我就在想有没有一个定论呢。 下面就来试着证明一下吧 先解决第一个问题吧。 定义: 若所有火柴数异或为0,则该状态被称为利他态,用字母T表示;否则, 为利己态,用S表示。 [定理1]: 对于任何一个S态,总能从一堆火柴中取出若干个使之成为T态。 证明: 若有n堆火柴,每堆火柴有A(i)根火柴数,那么既然现在处于S态, c=A (1)xorA (2)xor…xorA(n)>0; 把c表示成二进制,记它的二进制数的最高位为第p位,则必然存在一个A(t),它二进制的第p位也是1。 (否则,若所有的A(i)的第p位都是0,这与c的第p位就也为0矛盾)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 极小 极大 搜索 过程