哈希表Word文档格式.docx
- 文档编号:18446098
- 上传时间:2022-12-16
- 格式:DOCX
- 页数:18
- 大小:100.10KB
哈希表Word文档格式.docx
《哈希表Word文档格式.docx》由会员分享,可在线阅读,更多相关《哈希表Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
3、将结点按其关键字的散列地址存储到哈希表(散列表)中的过程称为“散列(Hashing)”。
方法称为“散列法”。
4、h(Ki)(Ki∈U)是关键字为Ki的结点的“存储地址”,亦称散列值、散列地址、哈希地址。
5、用散列法存储的线性表称为“哈希表(HashTable)”,又称散列表。
图中T即为哈希表。
在散列表里可以对结点进行快速检索(查找)。
6、对于关键字为key的结点,按照哈希函数h计算出地址h(key),若发现此地址已被别的结点占用,也就是说有两个不同的关键码值key1和key2对应到同一个地址,即h(key1)=h(key2),这个现象叫做“冲突(碰撞)”。
碰撞的两个(或多个)关键码称为“同义词”(相对于函数h而言)。
如图1中的关键字k2和k5,h(k2)=h(k5),即发生了“冲突”,所以k2和k5称为“同义词”。
假如先存了k2,则对于k5,我们可以存储在h(k2)+1中,当然h(k2)+1要为空,否则可以逐个往后找一个空位存放。
这是另外一种简单的解决冲突的方法。
发生了碰撞就要想办法解决,必须想办法找到另外一个新地址,这当然要降低处理效率,因此我们希望尽量减少碰撞的发生。
这就需要分析关键码集合的特性,找适当的哈希函数h使得计算出的地址尽可能“均匀分布”在地址空间中。
同时,为了提高关键码到地址转换的速度,也希望哈希函数“尽量简单”。
然而对于各种取值的关键码而言,一个好的哈希函数通常只能减少碰撞发生的次数,无法保证绝对不产生碰撞。
因此散列除去要选择适当的哈希函数以外,还要研究发生碰撞时如何解决,即用什么方法存储同义词。
7、负载因子
我们把h(key)的值域所对应到的地址空间称为“基本区域”,发生碰撞时,同义词可以存放在基本区域还没有被占用的单元里,也可以放到基本区域以外另开辟的区域中(称为“溢出区”)。
下面引入散列的一个重要参数“负载因子或装填因子(LoadFactor)”,它定义为:
а=
负载因子的大小对于碰撞的发生频率影响很大。
直观上容易想象,а越大,散列表装得越满,则再要载入新的结点时碰上已有结点的可能性越大,冲突的机会也越大。
特别当а>1时碰撞是不可避免的。
一般总是取а<1,即分配给散列表的基本区域大于所有结点所需要的空间。
当然分配的基本区域太大了也是浪费。
例如,某校学生干部的登记表,每个学生干部是一个结点,用学号做关键码,每个学号用7位数字表示,如果分配给这个散列表的基本区域为107个存储单元,那么散列函数就可以是个恒等变换,学号为7801050的学生结点就存入相对地址为7801050的单元,这样一次碰撞也不会发生,但学校仅几百个学生干部,实际仅需要几百个单元的空间,如果占用了107个存储单元,显然太浪费了,所以这是不可取的。
负载因子的大小要取得适当,使得既不过多地增加碰撞,有较快的检索速度,也不浪费存储空间。
下面结合引例说明一下上面的思想和方法。
【例1】用散列存储线性表:
A=(18,75,60,43,54,90,46)。
分析:
假定选取的散列函数为:
h(K)=Kmodm,K为元素的关键字,m为散列表的长度,用余数作为存储该元素的散列地址。
这里假定K和m均为正整数,并且m要大于等于线性表的长度n。
此例n=7,故假定取m=13,则得到的每个元素的散列地址为:
h(18)=18mod13=5h(75)=75mod13=10h(60)=60mod13=8
h(43)=43mod13=4h(54)=54mod13=2h(90)=90mod13=12
h(46)=46mod13=7
根据散列地址按顺序把元素存储到散列表H(0:
m-1)中,存储映象为:
0123456789101112
H
54
43
18
46
60
75
90
当然这是一个比较理想的情况。
假如再往表中插入第8个元素30,h(30)=30mod13=4,我们会发现H[4]已经存了43,此时就发生了冲突。
我们可以从H[4]往后按顺序找一个空位置存放30,即可以把它插入到H[6]中。
四、哈希函数的构造方法
选择适当的哈希函数是实现散列的重中之重,构造哈希函数有两个标准:
简单和均匀。
简单是指哈希函数的计算要简单快速;
均匀是指对于关键字集合中的任一关键字,哈希函数能以等概率将其映射到表空间的任何一个位置上。
也就是说,哈希函数能将子集K随机均匀地分布在表的地址集{0,1,...,m-1}上,以使冲突最小化。
为简单起见,假定关键码是定义在自然数集合上,常见的哈希函数构造方法有:
1、直接定址法
以关键字Key本身或关键字加上某个数值常量C作为散列地址的方法。
散列函数为:
h(Key)=Key+C,若C为0,则散列地址就是关键字本身。
2、除余法
选择一个适当的正整数m,用m去除关键码,取其余数作为地址,即:
h(Key)=Keymodm,这个方法应用的最多,其关键是m的选取,一般选m为小于某个区域长度n的最大素数(如例1中取m=13),为什么呢?
就是为了尽力避免冲突。
假设取m=1000,则哈希函数分类的标准实际上就变成了按照关键字末三位数分类,这样最多1000类,冲突会很多。
一般地说,如果m的约数越多,那么冲突的几率就越大。
简单的证明:
假设m是一个有较多约数的数,同时在数据中存在q满足gcd(m,q)=d>
1,即有m=a*d,q=b*d,则有以下等式:
qmodm=q–m*[qdivm]=q–m*[bdiva]。
其中,[bdiva]的取值范围是不会超过[0,b]的正整数。
也就是说,[bdiva]的值只有b+1种可能,而m是一个预先确定的数。
因此上式的值就只有b+1种可能了。
这样,虽然mod运算之后的余数仍然在[0,m-1]内,但是它的取值仅限于等式可能取到的那些值。
也就是说余数的分布变得不均匀了。
容易看出,m的约数越多,发生这种余数分布不均匀的情况就越频繁,冲突的几率越高。
而素数的约数是最少的,因此我们选用大素数。
记住“素数是我们的得力助手”。
3、数字分析法
常有这样的情况:
关键码的位数比存储区域的地址的位数多,在这种情况下可以对关键码的各位进行分析,丢掉分布不均匀的位留下分布均匀的位作为地址。
本方法适用于所有关键字已知,并对关键字中每一位的取值分布情况作出了分析。
【例2】对下列关键码集合(表中左边一列)进行关键码到地址的转换,要求用三位地址。
Key
H(Key)
000319426
326
000718309
709
000629443
643
000758615
715
000919697
997
000310329
329
关键码是9位的,地址是3位的,需要经过数字分析丢掉6位。
丢掉哪6位呢?
显然前3位是没有任何区分度,第5位1太多、第6位基本都是8和9、第7位都是3、4、5,这几位的区分度都不好,而相对来说,第4、8、9位分布比较均匀,所以留下这3位作为地址(表中右边一列)。
4、平方取中法
将关键码的值平方,然后取中间的几位作为散列地址。
具体取多少位视实际要求而定,取哪几位常常结合数字分析法。
【例3】将一组关键字(0100,0110,1010,1001,0111)平方后得(0010000,0012100,1020100,1002001,0012321),若取表长为1000,则可取中间的三位数作为散列地址集:
(100,121,201,020,123)。
5、折叠法
如果关键码的位数比地址码的位数多,而且各位分布较均匀,不适于用数字分析法丢掉某些数位,那么可以考虑用折叠法。
折叠法是将关键码从某些地方断开,分关键码为几个部分,其中有一部分的长度等于地址码的长度,然后将其余部分加到它的上面,如果最高位有进位,则把进位丢掉。
一般是先将关键字分割成位数相同的几段(最后一段的位数可少一些),段的位数取决于散列地址的位数,由实际需要而定,然后将它们的对应位叠加和(舍去最高位进位)作为散列地址。
【例4】如关键码Key=58422241,要求转换为3位的地址码。
分如下3段:
584|222|41,则相加:
584
222
41
847
h(Key)=847
6、基数转换法
将关键码值看成在另一个基数制上的表示,然后把它转换成原来基数制的数,再用数字分析法取其中的几位作为地址。
一般取大于原来基数的数作转换的基数,并且两个基数要是互质的。
如:
key=(236075)10是以10为基数的十进制数,现在将它看成是以13为基数的十三进制数(236075)13,然后将它转换成十进制数。
(236075)13=2*135+3*134+6*133+7*13+5
=(841547)10
再进行数字分析,比如选择第2,3,4,5位,于是h(236075)=4154
五、哈希表支持的运算
哈希表支持的运算主要有:
初始化(makenull)、哈希函数值的运算(h(x))、插入元素(insert)、查找元素(member)。
设插入元素的关键字为x,A为哈希表,则各种运算过程如下:
1、初始化比较容易,例如:
constempty=maxlongint;
{用非常大的整数代表这个位置没有存储元素}
p=9997;
{根据需要设定的表的大小}
proceduremakenull;
vari:
integer;
begin
fori:
=0top-1doA[i]:
=empty;
End;
2、哈希函数值的运算,根据函数的不同而变化,例如除余法的一个例子:
functionh(x:
longint):
Integer;
h:
=xmodp;
end;
3、我们注意到,插入和查找首先都需要对这个元素定位,因此加入一个定位的函数locate:
functionlocate(x:
varorig,i:
orig:
=h(x);
i:
=0;
while(i<
P)and(A[(orig+i)modP]<
>
x)and(A[(orig+i)modP]<
empty)doinc(i);
{当这个循环停下来时,要么找到一个空的存储单元,
要么找到这个元素存储的单元,要么表已经满了}
locate:
=(orig+i)modP;
4、插入元素:
procedureinsert(x:
longint);
varposi:
posi:
=locate(x);
{定位函数的返回值}
ifA[posi]=emptythenA[posi]:
=x
elseerror;
{error即为发生了错误,当然这是可以避免的}
5、查找元素是否已经在表中:
proceduremember(x:
boolean;
varpos:
pos:
ifA[pos]=xthenmember:
=true
elsemember:
=false;
六、处理冲突的方法
1、完全避免冲突的条件
最理想的解决冲突的方法是完全避免冲突。
要做到这一点必须满足两个条件:
一是|U|≤m;
二是选择合适的散列函数。
这仅适用于|U|较小,且关键字均事先已知的情况,此时经过精心设计散列函数h有可能完全避免冲突。
但是,一味的追求低冲突率也不好。
理论上是可以设计出一个几乎完美、几乎没有冲突的哈希函数。
然而,这样做显然不值得,因为这样的函数设计很浪费时间而且编码一定很复杂,与其花费这么大的精力去设计函数,还不如用一个虽然冲突多一些但是编码简单的哈希函数。
所以,设计一个好的哈希函数是很关键的。
而“好”的标准,就是较低的冲突率和易于实现。
2、冲突不可能完全避免
通常情况下,哈希函数h是一个压缩映像。
虽然|K|≤m,但|U|>
m,故无论怎样设计h,也不可能完全避免冲突。
因此,只能在设计h时尽可能使冲突最少。
同时还需要确定解决冲突的方法,使发生冲突的同义词能够存储到表中。
处理冲突的方法基本上有两类:
一类方法是“拉链法(Chaining)”,当发生冲突时就拉出一条链,建立一个链接方式的子表。
若n个关键码值映象到基本区域的m个存储单元上,最多可以建立m个子表,每个关键码的同义词存放在以这m个单元为首结点链接的子表里。
另一类叫“开地址法(OpenAddressing)”,也称为“开放定址法”。
当冲突发生时,用某种方法在基本区内形成一个探查序列,沿着这个探查序列一个单元一个单元地查找,直到找到这个关键码或碰到一个开放的地址(没有存储关键码的空单元)为止,下面分别讲解。
3、拉链法
用拉链法法处理冲突时要求散列表的每个结点增加一个link字段,用于链接同义词子表。
同义词子表建立在什么地方?
一种办法是在基本存储区外开辟一个溢出区存储同义词表,这种方法叫做建立“分离的同义词表”的方法。
这时基本存储区里的结点即存放关键码值,同时又是一个链接的同义词子表的表头。
如果某个关键码值没有同义词,link字段为空;
如果某个关键码值有同义词,则它的link字段指向溢出区的同义词子表。
同义词的检索也是顺着这些链进行的。
这种方法的存储如图2所示。
图2用分离的同义词子表解决冲突
【例5】已知一组关键字为(26,36,41,38,44,15,68,12,06,51),请用拉链法解决冲突,构造这组关键字的散列表。
分析:
这里关键字个数n=10,为了减少冲突(保证装填因子а<
l)。
不妨取m=13,此时α≈0.77,散列表为T[0..12],散列函数为:
h(k)=kmod13。
具体构造过程参见动画模拟软件llf.swf(注:
请安装flash或播放软件)。
注意:
当把h(k)=i的关键字插入第i个单链表时,既可插入在链表的头上,也可以插在链表的尾上。
若采用将新关键字插入链尾的方式,依次把给定的这组关键字插入表中,则所得到的散列表如下图3所示,具体程序留给大家完成。
另一个办法是不另外建立溢出区,而是把同义词子表就存入基本存储区中目前还没有被占用的单元里,例如:
可以在基本存储区里从后往前找空单元,找到空单元就将同义词存进去,并将它链接进同义词子表。
这种方法叫建立“结合的同义词子表”。
下面给出该方法的算法。
此算法在散列表里检索一个给定的关键码值,设此关键码值进入算法前已在变量K中,若在散列表中找到这个关键码值则检索成功;
若找不到则将这个关键码插入散列表。
算法用散列表函数h(x)计算表里的相对地址,有关的类型和变量说明如下:
TYPEnode=RECORD
key:
link:
END
VAR
table:
ARRAY[0..m-1]OFnode;
r,k,i:
r是个辅助变量,用来帮助在插入时找到可利用单元。
r的初始值为m。
在算法进行过程中,始终有下列情况存在:
散列表中从table[r]到table[m-1]的所有单元都已被占用了。
设未被占用的单元起始内容全为0,而关键码值不能为0。
【算法1】 散列表的检索和插入(用结合的同义词子表解决冲突)
i:
=h(k);
{计算散列地址}
iftable[i].key=0{检索并插入}
thenbegintable[i].key:
=k;
table[i].link:
=-1;
write(‘inseted’,i);
end
elsebegin
while((table[i].key<
k)and(table[i].link<
-1))do
I:
=table[i].link;
Iftable[i].key=kthenwrite(‘retreval’,i,table[i])
Elsebegin
While((r>
=0)and(table[r].key<
0))do r:
=r-1;
Ifr<
0thenwrite(‘overflow’)
Elsebegin
=r;
table[r].key:
table[r].link:
write(‘inserted’,r);
end;
4、开地址法
用开地址法解决冲突的做法是:
当冲突发生时一定要产生一个探查序列,检索沿这个探查序列去查找。
最简单的产生探查序列的方法是进行线性探查,就是当冲突发生时到顺序的下一个基本存储区单元进行探查。
将散列表T[0..m-1]看成是一个循环向量,若初始探查的地址为d(即h(Key)=d),则最长的探查序列为:
d+l,d+2,...,m-1,0,1,...,d-1
即:
探查时从地址d开始,首先探查T[d],然后依次探查T[d+1],...,直到T[m-1],此后又循环到T[0],T[1],...,直到探查到T[d-1]为止。
探查过程终止于三种情况:
(1)若当前探查的单元为空,则表示查找失败(若是插入则将key写入其中);
(2)若当前探查的单元中含有key,则查找成功,但对于插入意味着失败;
(3)若探查到T[d-1]时仍未发现空单元也未找到key,则无论是查找还是插入均意味着失败(此时表满)。
利用开地址法的一般形式,线性探查法的探查序列为:
I(i)=(h(Key)+i)modm(0<i≤m-1=
下面具体介绍:
(1)利用线性探查法构造散列表
【例6】已知一组关键字和选定的散列函数和例5相同,用除余法构造散列函数,用线性探查法解决冲突,构造这组关键字的散列表。
和例1类似,散列函数为:
h(K)=Kmod13,散列表为T[0..12]。
由除余法的散列函数计算出的上述关键字序列的散列地址为(0,10,2,12,5,2,3,12,6,12)。
前5个关键字插入时,其相应的地址均为开放地址,故将它们直接插入T[0],T[10],T[2],T[12]和T[5]中。
当插入第6个关键字15时,其散列地址2(即h(15)=15mod13=2)已被关键字41(15和41互为同义词)占用。
故探查I=(2+1)mod13=3,此地址开放,所以将15放入T[3]中。
当插入第7个关键字68时,其散列地址3已被非同义词15先占用,故将其插入到T[4]中。
当插入第8个关键字12时,散列地址12已被同义词38占用,故探查I1=(12+1)mod13=0,而T[0]亦被26占用,再探查I2=(12+2)mod13=1,此地址开放,可将12插入其中。
类似地,第9个关键字06直接插入T[6]中;
而最后一个关键字51插人时,因探查的地址12,0,1,……,6均非空,故51插入T[7]中。
用开地址法(线性探查法)解决冲突,构造散列表的具体过程参见动画模拟软件kfdzh.swf。
下面给出用线性探查法解决冲突的算法,算法用散列函数h(x)计算散列地址。
算法有关类型和变量说明如下:
TYPEnode=RECORD
key:
integer
END;
table:
ARRAY[0…N-1]OFnode;
k,i,j:
j是个辅助变量,用来记录表里已有多少个表目,散列表建立时,设基本存储区已清为0,且j=0,要检索或插入的关键码,在进入算法前已放在变量K之中,算法中的m是一个常量,等于基本存储区的长度。
【算法2】散列表的检索和插入(用线性探索法解决冲突)
I:
{计算散列地址}
while((table[I].key<
k)and(table[I].key<
0))do
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈希表