哈希表技术判别源程序的相似性实验报告Word格式文档下载.docx
- 文档编号:13215647
- 上传时间:2022-10-08
- 格式:DOCX
- 页数:26
- 大小:1.04MB
哈希表技术判别源程序的相似性实验报告Word格式文档下载.docx
《哈希表技术判别源程序的相似性实验报告Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《哈希表技术判别源程序的相似性实验报告Word格式文档下载.docx(26页珍藏版)》请在冰豆网上搜索。
第一步用式(3-1)计算S,把接近1的保留,抛弃接近。
的情况(把不相似的排除);
第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者
对应的程序确实可能相似(慎重肯定相似的)。
S和D的值达到什么门限才能决定取舍?
需要积累经验,选择合适的阑值。
3)测试数据:
做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S}
并对比差异程度。
4)输入输出:
输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。
基本要求:
建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。
测试数据:
自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。
运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
二.需求分析
1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
2.用户可以将源程序的.txt文件放入hashtable文件夹中,运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。
三.概要设计
为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。
哈希表抽象数据类型的定义:
ADThashtable{
数据对象:
D={ai|ai∈ElemType,且各不相同,i=1,2...,n,n≥0}
数据关系:
R=φ
基本操作:
Hashfunc(charstr[]);
Hashfind(char*words);
creathash(void);
resethash(intn);
isletter(charch);
readc(char*filename);
getkey(char*str,intlen);
copycount(intx[],intn);
check(int*x1,int*x2);
}endADT
3.本程序实现模块
主程序模块
哈希表程序模块:
实现哈希表的抽象数据类型
主程序模块
哈希表程序模块
计算相似度和向量的几何距离的模块
调用关系:
四.详细设计
1.各个子函数的设计
1)创建哈希表函数
函数原型:
voidcreathash(void);
输入:
读取存储了32个关键字的文件ckey.txt
思路:
通过对ckey.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hashfunc函数。
(2)将关键字根据哈希函数放入哈希表中的指定位置的函数
voidHashfunc(charstr[]);
思路:
对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。
(3)在哈希表中找是否该words为关键字,并统计频度的函数
函数原型:
intHashfind(char*words);
将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1.
(4)重置哈希表函数
voidresethash(intn);
功能:
当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0.
(5)获取单词key的函数
intgetkey(char*str,intlen);
用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。
(6)判断是否为字母的函数
intisletter(charch);
如果调进来的ch字符的ASCII值在a~z或A~Z范围内的话则返回1,否则返回0.
(7)读取源程序文件中的单词的函数
intreadc(char*filename);
为了读取源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。
(8)将频度拷贝到数组里的函数
voidcopycount(intx[],intn);
将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。
(9)检查两个源程序是否相似的函数
voidcheck(int*x1,int*x2);
对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。
(10)取模函数
floatMol(int*x);
通过求向量模值的数学知识求x数组的模
(11)点积函数
intDot(int*x1,int*x2);
通过点积的数学知识对两个向量求点积
(12)求相似度S的函数
floatS(int*x1,int*x2);
根据题目给的求相似度的公式求x1和x2数组的相似度
(13)求距离D的函数
floatD(int*x1,int*x2);
用题目给的球几何距离的公式求x1和x2数组的几何距离
2.主函数伪码
intmain()
{
charfilename1[]={"
test1.txt"
};
charfilename2[]={"
test12.txt"
charfilename3[]={"
test13.txt"
intx1[hashlen],x2[hashlen],x3[hashlen];
//存储频度的数组,用于相似度S的计算
resethash(0);
//完全重置哈希表,即哈希指针置为NULL,频度置为0
creathash();
//通过文件ckey.txt创建哈希表
readc(filename1);
//读取第一个测试源程序文件
copycount(x1,hashlen);
//讲统计好的频度复制给x数组
resethash
(1);
//仅仅将频度count置为0
readc(filename2);
//同上
copycount(x2,hashlen);
readc(filename3);
copycount(x3,hashlen);
cout<
<
"
\t"
哈希序号"
\t"
关键字"
频度1"
频度2"
频度3"
endl;
for(inti=0;
i<
41;
i++)
{
if(hasht[i].hash1!
=NULL)
{
cout<
i<
hasht[i].hash1<
x1[i]<
x2[i]<
x3[i]<
}
}
filename1<
和"
filename2<
的相似情况为:
check(x1,x2);
//检查相似度
filename3<
check(x1,x3);
check(x2,x3);
return0;
}
3.调用关系图
main()
resethash
creathash
readc
copycount
isletter
hashfind
hashfunc
getkey
check
D
S
Dot
Mol
五.调试分析
1.遇到的问题分析
1)‘=’与‘==’的问题
赋值号与等号的问题虽然平时一直都会注意,但是有时候粗心也容易犯错,就比如在该语句中:
if((fp=fopen("
ckey.txt"
"
r"
))==NULL)写成了if((fp=fopen("
))=NULL),导致运行时出现下图
看到过一本讲编程的书说为了避免这种错误,可以#define==equal,这样就变成了if((fp=fopen("
))equalNULL)。
虽然这样确实可以避免该类错误,但是我觉的也没有太大的必要,只要平时注意点小心点就是了。
而且如果在visualstudio2012上编程时,一般是不允许出现fopen这种不安全函数的,要使用它推荐的fopen_s函数,使用如下
2)第二个问题出现在creathash函数中,也比较难找。
当时程序没有红色的那两句,
while(fgets(str,size,fp)!
=NULL)//读取一行写入一行
if(str==NULL)
break;
length=strlen(str);
str[length-1]='
\0'
;
Hashfunc(str);
fclose(fp);
接下来的是没有那两句的运行后的窗口截图
如果加上那两句红色的语句后的运行窗口就是这样的
后来调试时发现,(就拿文件ckey.txt中的第一个关键字为例)
在没有那两句红色语句时,调试窗口是这样显示的
说明在执行逐行读取关键字的那段代码时,它把每一行的换行号也读进了str数组里,导致输出时,每个关键字都做了换行,便有了上面的第一个截图。
所以我的解决办法就是加入红色的那两句,即length=strlen(str);
str[length-1]='
也就是把最后的换行号替换为‘\0’.
3)第三个问题出现在readc函数中。
在下面代码中原本没有注销的那一语句。
所以导致这样的结果:
即统计不到源程序文件中的关键字的频度,均显示为0.
然后进行调试发现(就以读取到的第一个单词include为例):
从调试窗口可看出读取完一个完整的单词后,它自
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈希表 技术 判别 源程序 相似性 实验 报告