书签分享收藏举报版权申诉 / 34

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 语文 > BM模式匹配算法图解.docx

BM模式匹配算法图解.docx

文档编号：29796132
上传时间：2023-07-27
格式：DOCX
页数：34
大小：278.08KB

BM模式匹配算法图解.docx

《BM模式匹配算法图解.docx》由会员分享，可在线阅读，更多相关《BM模式匹配算法图解.docx（34页珍藏版）》请在冰豆网上搜索。

BM模式匹配算法图解.docx

BM模式匹配算法图解

Boyer-Moore经典单模式匹配算法

BM模式匹配算法-原理（图解）

由于毕业设计（入侵检测）的需要，这两天仔细研究了BM模式匹配算法，稍有心得，特此记下。

首先，先简单说明一下有关BM算法的一些基本概念。

BM算法是一种精确字符串匹配算法（区别于模糊匹配）。

BM算法采用从右向左比较的方法，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。

BM算法的基本流程:

设文本串T，模式串为P。

首先将T与P进行左对齐，然后进行从右向左比较，如下图所示:

若是某趟比较不匹配时，BM算法就采用两条启发式规则，即坏字符规则和好后缀规则，来计算模式串向右移动的距离，直到整个匹配过程的结束。

下面，来详细介绍一下坏字符规则和好后缀规则。

首先，诠释一下坏字符和好后缀的概念。

请看下图：

图中，第一个不匹配的字符（红色部分）为坏字符，已匹配部分（绿色）为好后缀。

1）坏字符规则（BadCharacter）：

在BM算法从右向左扫描的过程中，若发现某个字符x不匹配，则按如下两种情况讨论：

i. 如果字符x在模式P中没有出现，那么从字符x开始的m个文本显然不可能与P匹配成功，直接全部跳过该区域即可。

ii.如果x在模式P中出现且出现次数>=1，则以该字符所在最右边位置进行对齐。

用数学公式表示，设Skip（x）为P右移的距离，m为模式串P的长度，max（x）为字符x在P中最右位置。

可以总结为字符x出现与否，将max（x）=0作为初值即可。

例1：

下图红色部分，发生了一次不匹配。

计算移动距离Skip（c）=m-max（c）=5-3=2，则P向右移动2位。

移动后如下图：

2）好后缀规则（GoodSuffix）：

若发现某个字符不匹配的同时，已有部分字符匹配成功，则按如下两种情况讨论：

i. 如果在P中位置t处已匹配部分P'在P中的某位置t'也出现，且位置t'的前一个字符与位置t的前一个字符不相同，则将P右移使t'对应t方才的所在的位置。

ii.如果在P中任何位置已匹配部分P'都没有再出现，则找到与P'的后缀P''相同的P的最长前缀x，向右移动P，使x对应方才P''后缀所在的位置。

用数学公式表示，设Shift（j）为P右移的距离，m为模式串P的长度，j为当前所匹配的字符位置，s为t'与t的距离（以上情况i）或者x与P''的距离（以上情况ii）。

以上过程有点抽象，所以我们继续图解。

例2：

下图中，已匹配部分cab（绿色）在P中再没出现。

再看下图，其后缀T'（蓝色）与P中前缀P'（红色）匹配，则将P'移动到T'的位置。

移动后如下图：

自此，两个规则讲解完毕。

在BM算法匹配的过程中，取SKip（x）与Shift（j）中的较大者作为跳跃的距离。

BM算法预处理时间复杂度为O（m+s），空间复杂度为O（s），s是与P,T相关的有限字符集长度，搜索阶段时间复杂度为O（m·n）。

最好情况下的时间复杂度为O（n/m），最坏情况下时间复杂度为O（m·n）。

BM模式匹配算法-实现（C语言）

下面是SNORT2.7.0中提取出的代码。

1./*

2. 函数：

int* MakeSkip（char *, int）

3. 目的：

根据坏字符规则做预处理，建立一张坏字符表

4. 参数：

5. ptrn => 模式串P

6. PLen => 模式串P长度

7. 返回：

8. int* - 坏字符表

9.*/

10.int* MakeSkip（char *ptrn, int pLen）

11.{

12. int i;

13. //为建立坏字符表，申请256个int的空间

14. /*PS:

之所以要申请256个，是因为一个字符是8位，

15. 所以字符可能有2的8次方即256种不同情况*/

16. int *skip = （int*）malloc（256*sizeof（int））;

17.

18. if（skip == NULL）

19. {

20. fprintf（stderr, "malloc failed!

"）;

21. return 0;

22. }

23.

24. //初始化坏字符表，256个单元全部初始化为pLen

25. for（i = 0; i < 256; i++）

26. {

27. *（skip+i） = pLen;

28. }

29.

30. //给表中需要赋值的单元赋值，不在模式串中出现的字符就不用再赋值了

31. while（pLen !

= 0）

32. {

33. *（skip+（unsigned char）*ptrn++） = pLen--;

34. }

35.

36. return skip;

37.}

38.

39.

40./*

41. 函数：

int* MakeShift（char *, int）

42. 目的：

根据好后缀规则做预处理，建立一张好后缀表

43. 参数：

44. ptrn => 模式串P

45. PLen => 模式串P长度

46. 返回：

47. int* - 好后缀表

48.*/

49.int* MakeShift（char* ptrn,int pLen）

50.{

51. //为好后缀表申请pLen个int的空间

52. int *shift = （int*）malloc（pLen*sizeof（int））;

53. int *sptr = shift + pLen - 1;//方便给好后缀表进行赋值的指标

54. char *pptr = ptrn + pLen - 1;//记录好后缀表边界位置的指标

55. char c;

56.

57. if（shift == NULL）

58. {

59. fprintf（stderr,"malloc failed!

"）;

60. return 0;

61. }

62.

63. c = *（ptrn + pLen - 1）;//保存模式串中最后一个字符，因为要反复用到它

64.

65. *sptr = 1;//以最后一个字符为边界时，确定移动1的距离

66.

67. pptr--;//边界移动到倒数第二个字符（这句是我自己加上去的，因为我总觉得不加上去会有BUG，大家试试“abcdd”的情况，即末尾两位重复的情况）

68.

69. while（sptr-- !

= shift）//该最外层循环完成给好后缀表中每一个单元进行赋值的工作

70. {

71. char *p1 = ptrn + pLen - 2, *p2,*p3;

72.

73. //该do...while循环完成以当前pptr所指的字符为边界时，要移动的距离

74. do{

75. while（p1 >= ptrn && *p1-- !

= c）;//该空循环，寻找与最后一个字符c匹配的字符所指向的位置

76.

77. p2 = ptrn + pLen - 2;

78. p3 = p1;

79.

80. while（p3 >= ptrn && *p3-- == *p2-- && p2 >= pptr）;//该空循环，判断在边界内字符匹配到了什么位置

81.

82. }while（p3 >= ptrn && p2 >= pptr）;

83.

84. *sptr = shift + pLen - sptr + p2 - p3;//保存好后缀表中，以pptr所在字符为边界时，要移动的位置

85. /*

86. PS:

在这里我要声明一句，*sptr = （shift + pLen - sptr） + p2 - p3;

87. 大家看被我用括号括起来的部分，如果只需要计算字符串移动的距离，那么括号中的那部分是不需要的。

88. 因为在字符串自左向右做匹配的时候，指标是一直向左移的，这里*sptr保存的内容，实际是指标要移动

89. 距离，而不是字符串移动的距离。

我想SNORT是出于性能上的考虑，才这么做的。

90. */

91.

92. pptr--;//边界继续向前移动

93. }

94.

95. return shift;

96.}

97.

98.

99./*

100. 函数：

int* BMSearch（char *, int , char *, int, int *, int *）

101. 目的：

判断文本串T中是否包含模式串P

102. 参数：

103. buf => 文本串T

104. blen => 文本串T长度

105. ptrn => 模式串P

106. PLen => 模式串P长度

107. skip => 坏字符表

108. shift => 好后缀表

109. 返回：

110. int - 1表示成功（文本串包含模式串），0表示失败（文本串不包含模式串）。

111.*/

112.int BMSearch（char *buf, int blen, char *ptrn, int plen, int *skip, int *shift）

113.{

114. int b_idx = plen;

115. if （plen == 0）

116. return 1;

117. while （b_idx <= blen）//计算字符串是否匹配到了尽头

118. {

119. int p_idx = plen, skip_stride, shift_stride;

120. while （buf[--b_idx] == ptrn[--p_idx]）//开始匹配

121. {

122. if （b_idx < 0）

123. return 0;

124. if （p_idx == 0）

125. {

126. return 1;

127. }

128. }

129. skip_stride = skip[（unsigned char）buf[b_idx]];//根据坏字符规则计算跳跃的距离

130. shift_stride = shift[p_idx];//根据好后缀规则计算跳跃的距离

131. b_idx += （skip_stride > shift_stride） ?

skip_stride :

shift_stride;//取大者

132. }

133. return 0;

134.}

经典单模式匹配算法：

KMP、BM；经典多模式匹配算法：

AC、Wu-Manber。

貌似实用中，KMP跟C库strstr（）效率相当，而BM能快上3x-5x。

于是小女不才花了小天的功夫来研究这个BM算法。

BM如何快速匹配模式？

它怎么跳跃地？

我今儿一定要把大家伙儿讲明白了，讲不明白您佬跟帖，我买单，包教包会。

模式，记为pat，用j作为索引;文本，记为string（或text），用i作为索引。

Input:

pat,string

Algorithm:

BM，在string中进行pat匹配。

Output:

匹配上则返回匹配地址，否则返回-1。

图1

图1是一简单示意图。

左对齐pat与string，小指针（记为p）指向对齐后的右end，开始比对。

如果pat[p]=string[p]，那么小指针往左挪（挪到左end说明匹配上了），否则就要滑动pat进行重新对齐，重新对齐后，小指针当然也要跟着溜到末位进行重新比对。

那么究竟怎么个滑法？

分四个case：

1.末位不匹配，且string[p]在pat中不存在，那么pat可以一下子右移patlen个单位。

因为你一个一个右移只是徒劳，没人跟string[i]能匹配上。

比如，图1中F与T不匹配，且F在pat中不存在，那么我们可以把pat右滑patlen，小指针也跟着移至末位，移动后如图2所示。

图2

2.末位不匹配，但string[p]在pat中存在（如果有多个，那就找最靠右的那个），距离pat右端为delta1。

那么右移pat使得它们对齐。

比如，图2中减号与T不匹配，但减号存在于pat中，数数知道delta1=4，那就右移pat使得两个减号对上，移动后如图3所示。

图3

总结：

从1、2可以得到，

dealta1=patlen,当string[p]在patlen中不存在

=patlen–最右边那个string[p]的位置，当string[p]在patlen中存在

delta1（）是所有字符的函数，例如pat和string对应26个字母，那么dealta1（‘a’）…dealta1（‘z’）。

只需扫描一下pat，就能记录下值了。

别地儿管这个叫“坏字符规则”。

3.末m位都匹配上了（m

1）图4中示例1，string中的c在pat中的最右出现居然还在小指针靠后的位置，总不至于为了让string中c跟pat中最右c匹配上就把pat往回倒滑一个位置吧，才不要那么瓜，遇到这种情况就让pat往右滑k=1个位置好了，此时小指针为了滑至最后需要滑k+m=5个位置。

2）图4中示例2，string中c在pat中的最右出现在小指针前面，那好吧，就让此a跟彼a对齐吧。

即让pat向右滑k=delta1（‘a’）-m=6-4=2个位置，此时小指针为了滑至最后需要滑k+m={dealta1（‘a’）-m}+m=dealta1（‘a’）=6个位置。

3）图4中示例3，string中y在pat中未出现。

那么将patlen向右移k=delta1（‘y’）-m=6-4=2个位置，此时小指针为了滑至最后需要滑dealta1（‘y’）=6个位置。

图4

总结：

从3可以得到，

pat右移位数=1，当示例1

=k=delta1（‘char’）-m，当示例2、3。

.

String右移位数=k+m

4.照着3那么移挺对也挺好地，但某些情况下，如图7的情况，能不能让pat右移地更快呢？

图7示例1，按3的分析只能将pat右滑1位，实际上我们可以放心右滑pat成示例2的样子，然后再将小指针移至末位开始匹配。

图7

下面的部分会比较绕，请读者用心看。

图7示例1，末m（m=3）位即abc匹配上了，记为subpat，那么pat中出现的最右abc且不由mismatchedchar引导的位置，记为末subpat的“重现位置”，如”gabcfabceabceabc”重现位置应该是f引导的subpat，可以理解么？

因为g引导的subpat不是最右的，倒数第2个e引导的subpat是由mismatchedchar引导的。

于是我们引入delta2（j）函数，j是发生mismatched的位置，我们记subpat的“重现位置”为rpr（j），那么pat应该右移k，相应地string右移k+m。

如何计算k?

预处理pat，j=1…patlen，那么rpr（j）是指以j为mismatched的位置，以j+1…patlen为subpat的“重现位置”。

rpr（j）=max{k|k<=patlen&&[pat（j+1）...pat（patlen）]=[pat（k）...pat（k+patlen-j-1）]

&&（k<=1||pat（k-1）!

=pat（j）}rpr（patlen）=patlen。

其中对于“=”的判断，要么pat（x）=pat（j）要么pat（x）=NULL要么pat（y）=NULL。

举个例子就明白了：

下面解释rpr（j）：

上图您能接受么？

呵呵，$表示空元素。

例如j=1时，要跟pat[j+1]…pat[patlen]匹配，那么pat[k]…p[k+patlen-j-1]最多就是如图所示，此时k+patlen-j-1=3即k+9-1-1=3，于是k=-4，k再大您可以试试，不好使了就。

其它依此类推。

读者可练习求一下下面这个rpr（j）。

OK，如何求滑动距离k呢？

现在小指针指在j的位置上，“重现位置”在rpr（j），那么k=j+1-rpr（j），小指针需要挪至最后所以k+m={j+1-rpr（j）}+{patlen-j}=patlen+1-rpr（j），即有delta2（j）=patlen+1-rpr（j）。

总结：

从3、4可以得到，

末m个元素已经匹配的情况，string需要右滑多少呢？

计算delta1（string（i））,delta2（j），谁大取谁，就说滑的越多越好，反正都有匹配不上的理由。

OK，现在给出算法伪码，加油，就快结束了：

实现上，可以更快一点。

看到delta0（）不要惊讶，它和delta1（）基本相同，除了delta0（pat（patlen））被设置为>stringlen+patlen的一个数。

因为1、2两种case在匹配中遇到的频率很高，我们抽出fast部分，匹配时间的70%-80%都在走fast部分。

自己举个例子把伪码过一遍，不明白地方跟帖。

别地儿都称“坏字符规则”“好后缀规则”，嘛回事？

fatdog如是写：

哈哈，好不好笑？

坏字符规则就是我们的delta1（char）计算，好后缀规则就是我们的delta2（j）计算，本来就一码事儿。

//预处理

计算bmGS[]和bmBC[]表；//BM的GoodSuffix、BadCharacter

while（text

{

//从当前匹配点text开始匹配关键词

for（i=m;（i>=0）&&（text[i]=pattern[i]）;i--）

;

if（i<0）

{

//匹配成功

报告一个成功的匹配;

text+=bmGS[0];//选择下一个匹配入口点

}

else//匹配失败，此时i指示着不匹配的位置点text[i]!

=pat[i]

{

//使用两种启发式方法选择下一个匹配入口点

text+=Max（bmGS[i]-m+1,bmBC[i]）;

}

BM通常是sublinear的复杂度，最好O（n/m），最坏O（n）。

一般会匹配string中的c*（i+patlen）个字符，其中c<1，并且patlen越大c越小，通常在longerpat下BM表现更出色。

BM算法概念

BM算法是一种精确字符串匹配算法（区别于模糊匹配）。

BM算法采用从右向左比较的方法，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。

BM算法思想

1、三个shift函数：

d1,d2,d3，函数的作用是决定当匹配不成功时窗口的移动位数。

2、假设一个情况：

已经读入了一个既是搜索窗口中的文本的后缀，同时也是模式串后缀的字符串u,并且读入的下一个文本字符σ与模式串的下一个字符a不相等。

3、窗口安全移动是指窗口移动意味着读入新的字符，放弃上一个窗口的前面几个字符，要保证放弃的字符确实无法参与匹配。

窗口移动方向是从前向后。

算法的核心思想是对于模式串，可能至少有2个相同部分，这些部分肯定有一个在模式串的后缀，其它的部分可能在模式串的中间，也可能在模式串的前缀，在后缀搜索时，发现了文本串和模式串的部分匹配X，此时，如果模式串除了后缀外，其它部分还含有X，则使文本串和模式中发生不匹配的读入的字符加上原来的匹配的X形成的部分有可能与模式串其它部分的X发生匹配（如果与模式串所有的X不匹配，则说明这个窗口内不可能发生匹配），安全地向后移动窗口，放弃的部分肯定不会发生匹配了。

1）d1:

后缀u在模式串p中的另一个位置是最右出现位置是j（不包括在模式串尾的出现）,文本串的窗口安全移动方法是将窗口移动m-j字符，使文本中的u与模式串中最右边的u的出现位置相对齐。

对模式中的每个后缀，计算它到它的下一个出现之