完整word版KMP算法详解文档格式.docx
- 文档编号:14964293
- 上传时间:2022-10-26
- 格式:DOCX
- 页数:15
- 大小:84.10KB
完整word版KMP算法详解文档格式.docx
《完整word版KMP算法详解文档格式.docx》由会员分享,可在线阅读,更多相关《完整word版KMP算法详解文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
\0'
&
T[j]!
)
if(S[i+j]==T[j])
j++;
//继续比较后一字符
else
i++;
j=0;
//重新开始新的一轮匹配
}
if(T[j]=='
returni;
//匹配成功
返回下标
return-1;
//串S中(第pos个字符起)不存在和串T相同的子串
}//Index_BF
此算法的思想是直截了当的:
将主串S中某个位置i起始的子串和模式串T相比较。
即从j=0起比较S[i+j]与T[j],若相等,则在主串S中存在以i为起始位置匹配成功的可能性,继续往后比较(j逐步增1),直至与T串中最后一个字符相等为止,否则改从S串的下一个字符起重新开始进行下一轮的"
匹配"
,即将串T向后滑动一位,即i增1,而j退回至0,重新开始新一轮的匹配。
例如:
在串S=”abcabcabdabba”中查找T=”abcabd”(我们可以假设从下标0开始):
先是比较S[0]和T[0]是否相等,然后比较S[1]和T[1]是否相等…我们发现一直比较到S[5]和T[5]才不等。
如图:
当这样一个失配发生时,T下标必须回溯到开始,S下标回溯的长度与T相同,然后S下标增1,然后再次比较。
这次立刻发生了失配,T下标又回溯到开始,S下标增1,然后再次比较。
又一次发生了失配,所以T下标又回溯到开始,S下标增1,然后再次比较。
这次T中的所有字符都和S中相应的字符匹配了。
函数返回T在S中的起始下标3。
二.KMP匹配算法
还是相同的例子,在S=”abcabcabdabba”中查找T=”abcabd”,如果使用KMP匹配算法,当第一次搜索到S[5]和T[5]不等后,S下标不是回溯到1,T下标也不是回溯到开始,而是根据T中T[5]==’d’的模式函数值(next[5]=2,为什么?
后面讲),直接比较S[5]和T[2]是否相等,因为相等,S和T的下标同时增加;
因为又相等,S和T的下标又同时增加。
。
最终在S中找到了T。
KMP匹配算法和简单匹配算法效率比较,一个极端的例子是:
在S=“AAAAAA…AAB“(100个A)中查找T=”AAAAAAAAAB”,简单匹配算法每次都是比较到T的结尾,发现字符不同,然后T的下标回溯到开始,S的下标也要回溯相同长度后增1,继续比较。
如果使用KMP匹配算法,就不必回溯.
对于一般文稿中串的匹配,简单匹配算法的时间复杂度可降为O(m+n),因此在多数的实际应用场合下被应用。
KMP算法的核心思想是利用已经得到的部分匹配信息来进行后面的匹配过程。
看前面的例子。
为什么T[5]==’d’的模式函数值等于2(next[5]=2),其实这个2表示T[5]==’d’的前面有2个字符和开始的两个字符相同,且T[5]==’d’不等于开始的两个字符之后的第三个字符(T[2]=’c’).如图:
也就是说,如果开始的两个字符之后的第三个字符也为’d’,那么,尽管T[5]==’d’的前面有2个字符和开始的两个字符相同,T[5]==’d’的模式函数值也不为2,而是为0。
前面我说:
在S=”abcabcabdabba”中查找T=”abcabd”,如果使用KMP匹配算法,当第一次搜索到S[5]和T[5]不等后,S下标不是回溯到1,T下标也不是回溯到开始,而是根据T中T[5]==’d’的模式函数值,直接比较S[5]和T[2]是否相等。
为什么可以这样?
刚才我又说:
“(next[5]=2),其实这个2表示T[5]==’d’的前面有2个字符和开始的两个字符相同”。
请看图
:
因为,S[4]==T[4],S[3]==T[3],根据next[5]=2,有T[3]==T[0],T[4]==T[1],所以S[3]==T[0],S[4]==T[1](两对相当于间接比较过了),因此,接下来比较S[5]和T[2]是否相等。
有人可能会问:
S[3]和T[0],S[4]和T[1]是根据next[5]=2间接比较相等,那S[1]和T[0],S[2]和T[0]之间又是怎么跳过,可以不比较呢?
因为S[0]=T[0],S[1]=T[1],S[2]=T[2],而T[0]
!
=
T[1],T[1]
T[2],==>
S[0]
=S[1],S[1]!
=S[2],所以S[1]
=T[0],S[2]!
=T[0].
还是从理论上间接比较了。
有人疑问又来了,你分析的是不是特殊轻况啊。
假设S不变,在S中搜索T=“abaabd”呢?
答:
这种情况,当比较到S[2]和T[2]时,发现不等,就去看next[2]的值,next[2]=-1,意思是S[2]已经和T[0]间接比较过了,不相等,接下来去比较S[3]和T[0]吧。
假设S不变,在S中搜索T=“abbabd”呢?
这种情况当比较到S[2]和T[2]时,发现不等,就去看next[2]的值,next[2]=0,意思是S[2]已经和T[2]比较过了,不相等,接下来去比较S[2]和T[0]吧。
假设S=”abaabcabdabba”在S中搜索T=“abaabd”呢?
这种情况当比较到S[5]和T[5]时,发现不等,就去看next[5]的值,next[5]=2,意思是前面的比较过了,其中,S[5]的前面有两个字符和T的开始两个相等,接下来去比较S[5]和T[2]吧。
总之,有了串的next值,一切搞定。
那么,怎么求串的模式函数值next[n]呢?
(本文中next值、模式函数值、模式值是一个意思。
)
三.怎么求串的模式值next[n]
定义:
(1)next[0]=-1
意义:
任何串的第一个字符的模式值规定为-1。
(2)next[j]=-1
意义:
模式串T中下标为j的字符,如果与首字符
相同,且j的前面的1—k个字符与开头的1—k
个字符不等(或者相等但T[k]==T[j])(1≤k<
j)。
如:
T=”abCabCad”则next[6]=-1,因T[3]=T[6]
(3)next[j]=k
模式串T中下标为j的字符,如果j的前面k个
字符与开头的k个字符相等,且T[j]!
=T[k](1≤k<
即T[0]T[1]T[2]。
T[k-1]==
T[j-k]T[j-k+1]T[j-k+2]…T[j-1]
且T[j]!
=T[k].(1≤k<
j);
(4)next[j]=0
除
(1)
(2)(3)的其他情况。
举例:
01)求T=“abcac”的模式函数的值。
next[0]=-1
根据
(1)
next[1]=0
根据(4)
因(3)有1<
=k<
j;
不能说,j=1,T[j-1]==T[0]
next[2]=0
(T[0]=a)!
=(T[1]=b)
next[3]=-1
根据
(2)
next[4]=1
根据(3)
T[0]=T[3]且T[1]=T[4]
即
下标
1
2
3
4
T
a
b
c
next
-1
若T=“abcab”将是这样:
为什么T[0]==T[3],还会有next[4]=0呢,因为T[1]==T[4],根据(3)”且T[j]!
=T[k]”被划入(4)。
02)来个复杂点的,求T=”ababcaabc”的模式函数的值。
next[0]=-1
根据
(1)
根据(4)
next[2]=-1
根据
(2)
next[3]=0
根据(3)虽T[0]=T[2]但T[1]=T[3]被划入(4)
next[4]=2
根据(3)T[0]T[1]=T[2]T[3]且T[2]!
=T[4]
next[5]=-1
根据
(2)
next[6]=1
根据(3)T[0]=T[5]且T[1]!
=T[6]
next[7]=0
根据(3)虽T[0]=T[6]但T[1]=T[7]被划入(4)
next[8]=2
根据(3)T[0]T[1]=T[6]T[7]且T[2]!
=T[8]
即
5
6
7
8
只要理解了next[3]=0,而不是=1,next[6]=1,而不是=-1,next[8]=2,而不是=0,其他的好象都容易理解。
03)
来个特殊的,求T=”abCabCad”的模式函数的值。
C
d
next[5]=0
根据(3)虽T[0]T[1]=T[3]T[4],但T[2]==T[5]
next[6]=-1
根据
(2)虽前面有abC=abC,但T[3]==T[6]
next[7]=4
根据(3)前面有abCa=abCa,且T[4]!
=T[7]
若T[4]==T[7],即T=”adCadCad”,那么将是这样:
next[7]=0,而不是=4,因为T[4]==T[7].
如果你觉得有点懂了,那么
练习:
求T=”AAAAAAAAAAB”的模式函数值,并用后面的求模式函数值函数验证。
next函数值究竟是什么含义,前面说过一些,这里总结。
设在字符串S中查找模式串T,若S[m]!
=T[n],那么,取T[n]的模式函数值next[n],
1.
next[n]=-1表示S[m]和T[0]间接比较过了,不相等,下一次比较S[m+1]和T[0]
2.
next[n]=0表示比较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整 word KMP 算法 详解