利用αβ搜索过程的博弈树搜索算法编写一字棋游戏.docx
- 文档编号:25366023
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:15
- 大小:23.12KB
利用αβ搜索过程的博弈树搜索算法编写一字棋游戏.docx
《利用αβ搜索过程的博弈树搜索算法编写一字棋游戏.docx》由会员分享,可在线阅读,更多相关《利用αβ搜索过程的博弈树搜索算法编写一字棋游戏.docx(15页珍藏版)》请在冰豆网上搜索。
利用αβ搜索过程的博弈树搜索算法编写一字棋游戏
利用α-β搜索过程的博弈树搜索算法编写一字棋游戏
南京信息工程大学研究生实验报告
课程名称人工智能与专家系统
实验名称利用α-β搜索过程的博弈树搜索算法编写一字棋游戏
学生姓名王灿田
学号20111221332
院系信息与控制学院
专业系统分析与集成
任课教师梅平
2012年6月10日
1利用α-β搜索过程的博弈树搜索算法编写一字棋游戏
1.α-β搜索过程
在极小极大搜索方法中,由于要先生成指定深度以内的所有节点,其节点数将随着搜索深度的增加承指数增长。
这极大地限制了极小极大搜索方法的使用。
能否在搜索深度不变的情况下,利用已有的搜索信息减少生成的节点数呢,
设某博弈问题如下图所示,应用极小极大方法进行搜索。
假设搜索的顺序为从下到上,从左到右。
当计算完a的值为0后,由于b是极大节点,马上就可以知道b的值大于等于0。
接下来求c的值。
由于c是极小节点,由d的值为-3,知道c的值小于等于-3。
而a和c都是b的子节点,所以即便不扩展节点e,也可以知道b的值一定为0了。
所以在这种情况下,没有生成节点e的必要。
同样,在知道b的值为0后,由于k是极小节点,所以立即知道k的值要小于等于0。
而通过节点f、g,知道h的值至少为3。
这样即便不扩展A所包围的那些节点,也能知道k的值一定为0。
所以A包围的那些节点也没有生成的必要,不管这些节点取值如何,都不影响k的值。
如果在搜索的过程中,充分利用这些信息,不就可以少生成很多节点,从而提高搜索的空间利用率吗,α-β过程正是这样一种搜索方法。
图1
MINIMAX过程是把搜索树的生成和格局估值这两个过程分开来进行,即先生成全部搜索树,然后再进行端节点静态估值和倒推值计算,这显然会导致低效率。
如图1中,其中一个MIN节点要全部生成A、B、C、D四个节点,然后还要逐个计算其静态估值,最后在求倒推值阶段,才赋给这个MIN节点的倒推值,?
。
其实,如果生成节点A后,马上进行静态估值,得知f(A),,?
之后,就可以断定再生成其余节点及进行静态计算是多余的,可以马上对MIN节点赋倒推值,?
,而丝毫不会影响MAX的最好优先走步的选择。
这是一种极端的情况,实际上把生成和倒推估值结合起来进行,再根据一定的条件判定,有可能尽早修剪掉一些无用的分枝,同样可获得类似的效果,这就是α-β过程的基本思想。
22.利用α-β搜索过程的一字棋的实例
图2一字棋第一阶段α-β剪枝方法
为了使生成和估值过程紧密结合,采用有界深度优先策略进行搜索,这样当生成达到规定深度的节点时,就立即计算其静态估值函数,而一旦某个非端节点有条件确定其倒推值时就立即计算赋值。
从图2中标记的节点生成顺序号(也表示节点编号)看出,生成并计算完第6个节点后,第1个节点倒推值完全确定,可立即赋给倒推值,1。
这时对初始节点来说,虽然其他子节点尚未生成,但由于s属极大值层,可以推断其倒推值不会小于,1,我们称极大值层的这个下界值为α,即可以确定s的α,,1。
这说明s实际的倒推值决不会比,1更小,还取决于其他后继节点的倒推值,因此继续生成搜索树。
当第8个节点生成出来并计算得静态估值为,1后,就可以断定第7个节点的倒推值不可能大于,1,我们称极小值层的这个上界值为β,即可确定节点,的β,,1。
有了极小值层的β值,很容易发现若α?
β时,节点7的其他子节点不必再生成,这不影响高一层极大值的选取,因s的极大值不可能比这
个β值还小,再生成无疑是多余的,因此可以进行剪枝。
这样一来,只要在搜索过程记住倒推值的上下界并进行比较,就可以实现修剪操作,称这种操作为α剪枝。
类似的还有β剪枝,统称为α-β剪枝技术。
在实际修剪过程中,α、β还可以随时修正,但极大值层的倒推值下界α永不下降,实际的倒推值取其后继节点最终确定的倒推值中最大的一个倒推值。
而极小值层的倒推值上界β永不上升,其倒推值则取后继节点最终确定的倒推值中最小的一个倒推值。
2.1在进行α-β剪枝时,应注意以下几个问题:
(1)比较都是在极小节点和极大节点间进行的,极大节点和极大节点的比较,或者极小节点和极小节点间的比较是无意义的。
(2)在比较时注意是与"先辈层"节点比较,不只是与父辈节点比较。
当然,这里的"先辈层"节点,指的是那些已经有了值的节点。
(3)当只有一个节点的"固定"以后,其值才能够向其父节点传递。
3(4)α-β剪枝方法搜索得到的最佳走步与极小极大方法得到的结果是一致的,α-β剪枝并没有因为提高效率,而降低得到最佳走步的可能性。
(5)在实际搜索时,并不是先生成指定深度的搜索图,再在搜索图上进行剪枝。
如果这样,就失去了α-β剪枝方法的意义。
在实际程序实现时,首先规定一个搜索深度,然后按照类似于深度优先搜索的方式,生成节点。
在节点的生成过程中,如果在某一个节点处发生了剪枝,则该节点其余未生成的节点就不再生成了。
2.2α-β剪枝搜索过程(如图3)
在搜索过程中,假定节点的生成次序是从上到下,从左到右进行的。
图中带圈的数字,表示节点的计算次序,在叙述时,为了表达上的方便,该序号也同时表示节点。
当一个节点有两个以上的序号时,不同的序号,表示的是同一个节点在不同次序下计算的结果。
过程如下:
首先,从根节点开始,向下生成出到达指定节点深度的节点?
1{注释:
?
1应为
,?
2……?
32也一样表示},
由?
1的值为0,可知?
2?
0,继续扩展生成节点?
3,由于?
3的值5大于?
2的值0,并且节点?
2再也没有其它的子节点了,所以?
4(与?
2是同一个节点)的值确定为0。
由?
4的值,可以确定?
5?
0。
扩展节点?
5,按顺序生成节点?
7、?
6,由?
6的值-3,有?
7?
-3。
?
7是极小节点,其值小于它的先辈节点?
5的值,满足α剪枝条件,故?
7的其他子节点被剪掉,不再生成。
由于?
5不再有其他子节点,所以有?
8,0,并因此有?
9?
0。
扩展节点?
9,顺序生成节点?
12、?
11、?
10,由?
10,3得到?
11,3和?
12?
3。
?
12是极大节点,其值大于其先辈节点?
9的值,满足β剪枝条件,故?
12的其他三个子节点及其这些子节点的后继节点全部被剪掉。
这样?
9的子节点也全部搜索完,得到?
13,0,并上推到?
14?
0。
扩展?
14的另一个子节点,一直到指定深度。
由?
15,5,有?
16?
5,然后顺序生成出?
17、?
19,由?
17、?
19的值分别得到?
18?
4、?
20,1。
上推得到?
21?
1。
扩展?
21的另一个子节点,顺序生成?
23、?
22,得到?
23?
-3。
?
23是一个极小节点,其值小于其先辈节点?
21的值,满足α剪枝条件,所以在?
23处发生剪枝(注意,此处即便是?
23的值不小于?
21的值,但由于?
23的值小于?
14的值,同样也发生α剪枝,因为是后继节点的β值与其先辈节点的α值进行比较,而不只是后辈的β值与其父节点的α值进行比较。
同样,在β剪枝的情况下,也是后辈节点的α值与其先辈节点的β值进行比较,而不只是后辈的α值与其父节点的β值进行比较)。
这样得到?
24,1,?
25?
1。
扩展?
25的右边子节点及其后继节点,有?
26,6,?
27?
6,?
28,8,?
29,6,并由此上推到?
30?
6。
?
30是一个极大节点,其值大于其先辈节点?
25的值,满足β剪枝条件,故在节点?
30处发生剪枝。
这样使得?
31,1,并使得根节点?
32,1。
至此全部搜索结束,根节点?
32的值就是对当前棋局的评判。
由于该值来自于根节点的右边一个子节点?
31,所以搜索得到的最佳
走步应该走向根节点的右边这一个子节点?
31。
应该注意的是,博弈树搜索的目标就是找到当前棋局的一步走法,所以α-β剪枝搜索的结果是得到了一步最佳走步,而不是象一般的图搜索或者与或图搜索那样,得到的是从初始节点到目标节点(集)的一条路径或者解图。
根据这些剪枝规则,很容易给出α-β算法描述,显然剪枝后选得的最好优先走步,其结果与不剪枝的MINIMAX方法所得完全相同,因而α-β过程具有较高的效率。
4图3α-β搜索过程的博弈树
图3给出一个d,4的博弈树的α-β搜索过程,其中带圆圈的数字表示求静态估值及倒推值过程的次序编号。
该图详细表示出α-β剪枝过程的若干细节。
初始节点的最终倒推值为1,该值等于某一个端节点的静态估值。
最好优先走步是走向右分枝节点所代表的棋局,要注意棋局的发展并不一定要沿着通向静态值为1的端节点这条路径走下去,这要看对手的实际响应而定。
2.3剪枝的效率问题
若以最理想的情况进行搜索,即对MIN节点先扩展最低估值的节点(若从左向右顺序进行,则设节点估计值从左向右递增排序),MAX先扩展最高估值的节点(设估计值从左向右递减排序),则当搜索树深度为D,分枝因数为B时,若不使用α-β剪枝技术,搜索树的端节点数的端节点数最少,有
(D为偶数)
(D为奇数)
比较后得出最佳α-β搜索技术所生成深度为D处的端节点数约等于不用α-β搜索技术所生成深度为D,2处的端节点数。
这就是说,在一般条件下使用α-β搜索技术,在同样的资源限制下,可以向前考虑更多的走步数,这样选取当前的最好优先走步,将带来更大的取胜优势。
;若使用α-β剪枝技术(可以证明理想条件下生成
3(其他改进方法
使用α-β剪枝技术,当不满足剪枝条件(即
)时。
若β值比α值大不了多少或极相近,这时也可以进
5行剪枝,以便有条件把搜索集中到会带来更大效果的其他路径上,这就是中止对效益不大的一些子村的搜索,以提高搜索效率。
其他改善极小极大过程性能的基本方法有:
(1)不严格限制搜索的深度,当到达深度限制时,如出现博弈格局有可能发生较大变化时(如出现兑子格局),则应多搜索几层,使格局进入较稳定状态后再中止,这样可使倒推值计算的结果比较合理,避免考虑不充分产生的影响,这是等候状态平稳后中止搜索的方法。
(2)当算法给出所选的走步后,不马上停止搜索,而是在原先估计可能的路径上再往前搜索几步,再次检验会不会出现意外,这是一种增添辅助搜索的方法。
(3)对某些博弈的开局阶段和残局阶段,往往总结有一些固定的对弈模式,因此可以利用这些知识编好走步表,以便在开局和结局时使用查表法。
只是在进入中盘阶段后,再调用其他有效的搜索算法,来选择最优的走步。
4.结论
α-β剪枝过程是二人博弈问题的一般搜索方法,实践证明,该方法可以有效地减少在搜索过程中生成的节点数,提高搜索效率。
IBM公司研制的"深蓝"国际象棋程序,采用的就是这样的一种搜索算法,该程序曾经战胜了国际象棋世界冠军卡斯帕罗夫。
以上介绍的各种博弈搜索技术可用于求解所提到的一些双人博弈问题。
但是这些方法还不能全面反映人们弈棋过程实际所使用的一切推理技术,也未涉及棋局的表示和启发函数问题。
例如一些高明的棋手,对棋局的表示有独特的模式,他们往往记住的是一个可识别的模
式集合,而不是单独棋子的具体位置。
此外有些博弈过程,在一个短时期内短兵相接,进攻
和防御的战术变化剧烈,这些情况如何在搜索策略中加以考虑。
还有基于极小极大过程的一
些方法都设想对手总是走的最优走步,即我方总应考虑最坏的情况,实际上再好的选手也会
有失误,如何利用失误加强攻势,也值得考虑。
再一点就是选手的棋风问题。
总之要真正解
决具体的博弈搜索技术,有许多更深入的问题需要作进一步的研究和探讨。
参考文献
[1]《人工智能与专家系统(第二版)》尹朝庆中国水利水电出版社[2]《人工智能原理
与方法》王永庆西安交通大学出版社
6基于α-β剪枝的一字棋源代码如下:
#includeusingnamespacestd;
intnum=0;//记录棋盘上棋子的个数
intp,q;
inttmpQP[3][3];//表示棋盘数据的临时数组,其中的元素0表示该格为空,int
cur[3][3];//存储当前棋盘的状态constintdepth=3;//搜索树的最大深度
voidInit()//初始化棋盘状态{for(inti=0;i<3;i++)for(intj=0;j<3;j++){cur[i][j]=0;
}
}
voidPrintQP()//打印棋盘当前状态{for(inti=0;i<3;i++){for(intj=0;j<3;j++)cout< } } voidUserInput()//用户通过此函数来输入落子的位置,比如: 用户输入31,则表示用 户在第3行第1列落子。 {intpos,x,y; L1: cout<<"Pleaseinputyourqizi(xy): ";cin>>pos; x=pos/10,y=pos%10; if(x>0&&x<4&&y>0&&y<4&&cur[x-1][y-1]==0){cur[x-1][y-1]=-1;}else {cout<<"InputError! ";gotoL1; } } 7intCheckWin()//检查是否有一方赢棋(返回0: 没有任何一方赢;1: 计算机赢;-1: 人赢){//该方法没有判断平局for(inti=0;i<3;i++){if(cur[i][0]==1&&cur[i][1]==1&&cur[i][2]==1){return1; }if(cur[i][0]==-1&&cur[i][1]==-1&&cur[i][2]==-1) { return-1;}} for(i=0;i<3;i++){if(cur[0][i]==1&&cur[1][i]==1&&cur[2][i]==1){return1; } if(cur[0][i]==-1&&cur[1][i]==-1&&cur[2][i]==-1){return-1; } } if((cur[0][0]==1&&cur[1][1]==1&&cur[2][2]==1)||(cur[2][0]==1&&cur[1][1]==1&&cur[ 0][2]==1)){return1; } if((cur[0][0]==-1&&cur[1][1]==-1&&cur[2][2]==-1)||(cur[2][0]==-1&&cur[1][1]==-1& &cur[0][2]==-1)){ return-1;} return0; } intvalue()//评估当前棋盘状态的值(同时可以用p或q判断是否平局){p=0;q=0; for(inti=0;i<3;i++)//计算机一方{//将棋盘中的空格填满自己的棋子,既将棋盘数组中的0变为1for(intj=0;j<3;j++){if(cur[i][j]==0){tmpQP[i][j]=1; } 8} else{} tmpQP[i][j]=cur[i][j]; } for(i=0;i<3;i++)//计算共有多少连成3个1的行{ p+=(tmpQP[i][0]+tmpQP[i][1]+tmpQP[i][2])/3;} for(i=0;i<3;i++)//计算共有多少连成3个1的列{} p+=(tmpQP[0][i]+tmpQP[1][i]+tmpQP[2][i])/3; p+=(tmpQP[0][0]+tmpQP[1][1]+tmpQP[2][2])/3;//计算共有多少连成3个1的对角线p+=(tmpQP[2][0]+tmpQP[1][1]+tmpQP[0][2])/3; for(i=0;i<3;i++)//人一方 {//将棋盘中的空格填满自己的棋子,既将棋盘数组中的0变为-1 for(intj=0;j<3;j++){ if(cur[i][j]==0){}else{} tmpQP[i][j]=cur[i][j];tmpQP[i][j]=-1; }} for(i=0;i<3;i++)//计算共有多少连成3个-1的行{ q+=(tmpQP[i][0]+tmpQP[i][1]+tmpQP[i][2])/3;} for(i=0;i<3;i++)//计算共有多少连成3个1的列{ q+=(tmpQP[0][i]+tmpQP[1][i]+tmpQP[2][i])/3; } q+=(tmpQP[0][0]+tmpQP[1][1]+tmpQP[2][2])/3;//计算共有多少连成3个1的对角线q+=(tmpQP[2][0]+tmpQP[1][1]+tmpQP[0][2])/3; returnp+q;//返回评估出的棋盘状态的值 } intcut(int&val,intdep,boolmax)//主算法部分,实现a-B剪枝的算法,val为上一层的估计值,dep为搜索深度,max记录上一层是否为极大层 9{ if(dep==depth||dep+num==9)//如果搜索深度达到最大深度,或者深度加上当前棋子数已经达到9,就直接调用估计函数{ returnvalue(); } inti,j,flag,temp;//flag记录本层的极值,temp记录下层求得的估计值bool out=false;//out记录是否剪枝,初始为false /*if(CheckWin()==1)//如果计算机赢了,就置上一层的估计值为无穷(用很大的值代表无穷) { val=10000;return0;}*/ if(max)//如果上一层是极大层,本层则需要是极小层,记录flag为无穷大;反之,则为记录为负无穷大 { flag=10000;//flag记录本层节点的极值 }else { flag=-10000;} for(i=0;i<3&&! out;i++)//双重循环,遍历棋盘所有位置{ for(j=0;j<3&&! out;j++){ if(cur[i][j]==0)//如果该位置上没有棋子 { if(max)//并且上一层为极大层,即本层为极小层,轮到用户玩家走了。 { cur[i][j]=-1;//该位置填上用户玩家棋子if(CheckWin()==-1)//如果用户玩家赢了 {} temp=-10000;//置棋盘估计值为负无穷 else{ temp=cut(flag,dep+1,! max);//否则继续调用a-B剪枝函数 } if(temp { flag=temp;} if(flag<=val)//如果本层的极值已经小于上一层的估计值,则不需要搜索下去,剪枝 { out=true; 10} } else//如果上一层为极小层,即本层为极大层,轮到计算机走了。 { cur[i][j]=1;//该位置填上计算机棋子if(CheckWin()==1)//如果计算机赢了{ temp=10000;//置棋盘估计值为无穷 } else { temp=cut(flag,dep+1,! max);//否则继续调用a-B剪枝函数} if(temp>flag){ flag=temp;} if(flag>=val) { out=true;} }cur[i][j]=0;//把模拟下的一步棋还原,回溯}} } if(max)//根据上一层是否为极大层,用本层的极值修改上一层的估计值{if(flag>val) { val=flag;}}else { if(flag val=flag;} } returnflag;//函数返回的是本层的极值} intmain()//主程序{intm=-10000,val=-10000,dep=1;//m用来存放最大的val intx_pos,y_pos;//记录最佳走步的坐标 11Init(); cout<<"Qipan: "< charIsFirst; cout<<"Doyouwantdofirst? (y/n)";cin>>IsFirst; while(IsFirst! ='y'&&IsFirst! ='n'){ cout<<"ERROR! "<<"Doyouwantdofirst? (y/n)";cin>>IsFirst; } if(IsFirst=='n')//---------------------------------计算机先走-------------------------------------- for(intx=0;x<3;x++){ for(inty=0;y<3;y++){ if(cur[x][y]==0){ {L5: cur[x][y]=1;cut(val,dep,1);//计算机试探的走一步棋,棋盘状态改变了,在该状态下计算出深度为dep-1的棋盘状态估计值val } } } if(CheckWin()==1){ cout<<"Thecomputerputtheqiziat: "< cout<<"ThecomputerWIN! GAMEOVER."< return0;} if(val>m)//m要记录通过试探求得的棋盘状态的最大估计值{ m=val; x_pos=x;y_pos=y; } val=-10000;cur[x][y]=0; cur[x_pos][y_pos]=1;val=-10000;m=-10000;dep=1; cout<<"Thecomputerputtheqiziat: "< 12PrintQP();cout< "< return0; } UserInput();//玩家走一步棋PrintQP();cout< "< return0; } if(CheckWin()==-1){cout<<"Conguatulations! YouWin! GAMEOVER."< 0; } gotoL5;} else//--------------------------------人先走 ----------------------------------- {L4: UserInput();PrintQP();cout< GAME! "< } if(CheckWin()==-1){cout<<"YouWin! GAMEOVER."< return0; } for
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 搜索 过程 博弈树搜索 算法 编写 一字棋 游戏