web搜索结果聚类方法研究.docx
- 文档编号:6430066
- 上传时间:2023-01-06
- 格式:DOCX
- 页数:9
- 大小:24.94KB
web搜索结果聚类方法研究.docx
《web搜索结果聚类方法研究.docx》由会员分享,可在线阅读,更多相关《web搜索结果聚类方法研究.docx(9页珍藏版)》请在冰豆网上搜索。
web搜索结果聚类方法研究
WEB搜索结果聚类方法研究
摘要
目前搜索引擎已成为互联网用户浏览Web信息的主要手段,但互联网用户对现有的搜索引擎的满意程度并不乐观。
搜索引擎的主要缺陷表现在:
查准率低,检索效率不高等。
多数搜索弓l擎的检索功能单一,信息加工深度不够,这导致信息查询的查准率不高。
并且其数据库多为非全文数据库,不能提供原文,复杂高级的精确检索方式明显不足,不易于处理多次检索和限定词检索。
按分类目录浏览常常检索到很多无关的信息。
主要问题是数据更新速度慢,查询响应时间长。
由于网络资源的爆炸式增长和互联网用户需求的日益增加,多数搜索引擎的日处理检索请求量很可能是上亿的。
如何处理如此繁重的任务并提高处理效率,是目前搜索引擎必须要考虑的问题。
关键词:
WEB;搜索引擎;聚类算法
目录
摘要I
1绪论1
2认识搜索引擎1
2.1搜索引擎发展史1
2.2当前主流的搜索引擎1
2.3搜索引擎分类2
3搜索引擎与聚类分析3
3.1搜索引擎工作原理3
3.1.1网页搜集3
3.1.2网页处理4
3.1.3查询服务5
3.2文本聚类5
3.2.1文本挖掘领域和信息检索5
3.2.2中文分词6
4后缀树聚类算法的改进6
4.1STC算法7
4.1.1后缀树的性质7
4.1.2STC算法步骤7
4.1.3STC算法的缺点8
4.2改进后的算法STC.I8
4.2.1预处理8
4.2.2去除同义词、近义词8
4.2.3确定合并基类9
5结论9
参考文献10
1绪论
随着全球网络化、信息化的高速发展,网络已经成为全球最大的资料库,Web已经成为人们获取信息的重要手段。
Web上的数据正以每天新增数百万张页面的速度增长,页面数目已超过l万亿张。
2认识搜索引擎
搜索引擎出现虽然只有10年左右的历史,但在web上已经有了确定不移的地位。
据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。
虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。
2.1搜索引擎发展史
早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。
这些资源当时主要存在于各种允许匿名访问的FTP站点(anonymousftp),它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。
为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发了一个软件——Archie。
它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。
尽管所提供服务的信息资源对象(非HTML文件)和本文所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。
2.2当前主流的搜索引擎
Google(http:
//www.google.com)。
四次荣获Searchenginewatch读者选举出的“最杰出搜索引擎”称号的Google作为在网络上搜索页面的首选是无愧于这个称号的。
它基于搜集器的服务既保证了能够覆盖广泛的网页,同时在查询效果上也表现得极其优秀。
AllTheWeb(http:
//www.alltheweb.com)。
AllTheW曲作为一个优秀的基于搜集器的搜索引擎,AllTheWeb提供广泛的网络覆盖与显著的相关性。
除了提供网页查询,AllTheWeb还提供新闻、图像、视频和音频的检索。
AllTheWeb于1999年5月推出,先是由FAST运作;2003年4月Overture收购了AllTheW如;后来Yahoo买下了Overture,现在的AllTheW曲由Yahoo运作。
Baidu(http:
//www.baidu.com)。
XX于2000年推出,是目前在中国最成功的一个商业搜索引擎,主要提供中文信息检索,并且为门户站点提供搜索结果服务。
搜索范围涵盖了中国内地、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。
拥有的中文信息总量达到1亿2千万张网页以上,并且还在以每天几十万页的速度快速增长。
2.3搜索引擎分类
据统计,各种各样的网络信息搜索工具已经有上千种。
从不同的角度,其分类也各不相同。
搜索引擎按其工作方式可以分为以下三类:
(1)全文搜索引擎:
全文搜索引擎是名副其实的搜索引擎,通过从互联网上提取的各个网站的信息建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
具有代表性的全文搜索引擎有Google、AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut、XX等。
从搜索结果来源的角度,全文搜索引擎又可细分为基于搜集器的搜索引擎和租用其他引擎的数据库的搜索引擎。
(2)目录型搜索引擎:
除了基于网页分析建立索引的网页搜索引擎外,还有一种以人工方式或半自动方式搜集信息的搜索引擎——目录型搜索引擎。
目录型搜索引擎也称为分类式搜索引擎,这种搜索引擎是由编辑人员根据信息资源的内容按一定的主题进行分类组织,并形成信息摘要。
将信息置于确定的分类框架中,组织成一层一层的分类目录,目录下面有更具体的子目录。
信息的类别也由大到小、由粗到细。
这类搜索引擎的性能主要取决于对于获取网页的人工归类,或自动分类算法的精确度如何,其代表有:
Yahoo、LookSmart、OpenDirectory、Snap、Lycos、GoGuide等。
(3)元搜索引擎(MetaSearchEngine)
由于单个搜索引擎的覆盖范围往往不会太大,为了找到自己所需要的信息,用户常常需要使用多个搜索引擎,以期找到更好更全的信息,但由于不同的搜索引擎其查询语法、接口界面往往不同,需要用户重新学习和适应不同的检索方法,这给用户使用多个搜索引擎带来了极大的不便。
为了解决这个问题,研究人员开发了元搜索引擎。
3搜索引擎与聚类分析
搜索引擎与文本聚类在许多文本挖掘领域和信息检索领域得到广泛的研究。
在某个领域中文本被聚类用以呈现其内部本质或者高效的检索。
最近,文本聚类被用来浏览文档集或者组织搜索引擎结果。
3.1搜索引擎工作原理
搜索引擎的工作原理,大致可分为3步:
获取网页、建立索引数据库、在索引数据库中搜索并排序。
(1)从互联网上获取网页,就是利用能够从互联网上自动收集网页的网络爬虫(网络蜘蛛)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这一过程,并把爬过的所有网页收集回来。
(2)建立索引数据库,就是由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.1.1网页搜集
搜索引擎的网页搜集过程并不是在用户提交关键词后进行即时的搜索,而是预先将网页搜集好并进行相关的处理之后等待用户的查询。
我们知道,在网络比较畅通的情况下,从网上下载一篇网页大约需要1秒钟,因此如果用户在查询的时候即时去网上抓来成千上万的网页,一个个分析处理后再和用户的查询匹配,这样查询的时间就会很慢也不可能满足用户的需求。
甚至有可能多个用户重复抓取同一个网页,使系统的效率降低。
面对大量的用户查询,不可能每来一个查询,系统就到网上“搜索”一次。
大规模的搜索引擎是将一批预先搜集好的网页进行管理和维护。
维护有以下两种基本方法:
(1)定期搜集法
每次搜集替换上一次的内容,称为“批量搜集”。
由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花费几周的时间。
这样做的开销比较大,通常两次搜集的间隔时间也很长。
(2)增量搜集法
最初时搜集好一批数据,以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。
除了新闻网站外,许多网页的内容并不是经常变化的,这样一来每次搜集的网页量不会很大,于是可以经常进行搜集。
3.1.2网页处理
互联网上大部分信息都是以HTML格式存在,对于索引来说,只处理文本信息。
因此需要把网页中文本内容提取出来,过滤掉一些脚本标识符和一些无用的广告信息,同时记录文本的版面格式信息。
网页处理主要包括4个方面:
关键词的提取、重复或转载网页的消除、链接分析和网页重要程序的计算。
(1)关键词的提取
由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息(如广告,导航条,版权说明等)。
为了支持查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征——关键词。
网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。
(2)重复或转载网页的消除
Web上的信息存在大量的重复现象,网页的重复率平均大约为4。
这种现象对于搜索引擎来说,它在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,将消耗查询者计算机的资源,也会引来用户的抱怨。
(3)链接分析
从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据关键词和关键词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性。
有了HTML标记后,情况还可能进一步改善,例如,在同一篇文档中,
和</HI>之间的信息很可能就比在和</H4>之间的信息更重要。
尤其是HTML文档中所含的指向其他文档的链接信息是人们特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
(4)网页重要程度的计算
搜索引擎返回给用户的,是一个和用户查询相关的结果列表。
列表中条目的顺序是很重要的一个问题。
不同的顺序得到的结果是不一样的,因此搜索引擎实际上追求的是一种统计意义上的满足。
著名的PageRank算法的核心想法就是“被引用多的就是重要的”。
3.1.3查询服务
为了完成查询服务,需要有相应的元素来进行表达,这些元素主要有:
原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其他的一些指标,如重要程度、分类代码等。
用户通过搜索引擎看到的不是一个“集合”,而是一个“列表”。
服务子系统的工作原理,主要有以下4个方面:
(1)查询方式和匹配
查询方式指的是系统允许用户提交查询的形式。
对于普通用户来说,最自然的方式就是“需要查询什么就输入什么”。
例如,用户输入“搜索引擎”,可能是他想了解有关搜索引擎的定义、概念和相应的知识。
(2)索引库的建立索引库的建立是数据索引中结构最复杂的一部分。
一般需要建立两种索引:
文档索引和关键词索引。
文档索引分配每个网页一个唯一的doclD号,根据doclD索引出在这个网页中出现过多少次wordlD,每个wordlD出现的次数、位置、大小写格式等,形成doclD对应wordlD的数据列表。
(3)文档摘要
搜索引擎给出的结果是一个有序的条目列表,每一个条目有3个基本的元素:
标题、网址和摘要。
其中的摘要需要从网页正文中生成。
搜索引擎在生成摘要时可以归纳为两种方式:
一种是“静态”方式,即独立于查询,按照某种规则,实现在预处理阶段从网页内容提取出一些文字。
另一种是“动态摘要”方式,即在相应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮,这是目前大多数搜索引擎采用的方式。
3.2文本聚类
文本聚类主要是依据著名的聚类假设:
同类的文档相似度较大,而不同类的文档相似度较小。
作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
3.2.1文本挖掘领域和信息检索
文本聚类在许多文本挖掘领域和信息检索领域得到广泛的研究。
在某个领域中文本被聚类用以呈现其内部本质或者高效的检索。
最近,文本聚类被用来浏览文档集或者组织搜索引擎结果。
聚类处理之前,文本需要进行一系列预处理步骤以提高系统效能,例如剔除特殊标签和标点符号。
最常见的预处理工作包括去除停用词和词干提取。
停用词通常是在文档中出现非常频繁的词,例如,“t11e”、“and",等等。
这个方法有高效的相关计算和概念简单的优点。
3.2.2中文分词
文档用VSM模型表示前需要对文档做分词处理。
中文词与词之间没有明显的分隔,所以中文分词需要人为切分。
此外,汉语中存在大量的歧义现象,对几个字分词可能会有好多结果,比如“中华人民”,可以有“中华",“华人"这样的不同切分。
本文设计的搜索引擎系统处理中文Web文档,所以我们着重介绍一下中文分词方法。
现有的中文分词算法大致可以分为三类:
基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
(1)基于字符串匹配的分词方法
这种方法按照一定的策略将待分析的汉字串与机器辞典中的词条进行匹配,如果找到某个字串,则匹配成功,即识别出一个词,这种方法又叫做机械分词方法。
(2)基于理解的分词方法
基于理解的分词方法是在分词阶段的后续过程中处理歧义切分问题,其分词过程只是整个语言理解过程中的-d,部分。
这种方法的基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,通常包括分词子系统、句法语义子系统、总控部分三个模块。
(3)基于统计的分词方法。
字与字相邻贡献的频率或概率能够较好的反应它们能够构成一个词的可信度,这是因为词是稳定的字的组合,相邻的字同时出现的次数越多越有可能构成一个词。
两个汉字之间的互信息体现了它们之间结合关系的紧密程度,当紧密程度高于某个阈值时,便可以认为此字组可能构成一个词。
4后缀树聚类算法的改进
后缀树聚类算法(Suffix.Treeclustering,STC)因其线性的时间复杂度而受到许多学者的关注和好评。
但STC有两个缺点:
特征空间维数过高并且未考虑查询关键字与文档的相关度。
本章我们首先简单地介绍了STC算法,然后针对它的两个缺点进行了改进。
4.1STC算法
后缀树聚类算法的主要思想是将每一个文档看成一个字符串,构建后缀树,后缀树中出现的相同的字符被认为是基本类,然后对基本类进行合并。
4.1.1后缀树的性质
定义4.1最大短语束:
表示在一个语言中如果不改变文档集合则不能再被扩展的短语束。
定义4.2后缀树(SuffixTree)是满足下面五个性质的查找树n91:
(1)后缀树是一颗有根的有向树。
(2)每个中间结点至少有两个儿子结点。
(3)每条边上赋予一个非空字串S。
结点的标签被定义为从根到该结点的路径上字串的串联。
(4)从同一结点出来的两条边上的字串不能开始于同一个词。
(5)每个S的子串S都存在一个后缀结点,标有等于S的字串。
4.1.2STC算法步骤
(1)预处理
提取词干(Stemming):
英文单词出现形式是多种多样的,比如decide这个单词,它在文档中可能以名词形式出现(decision),也可能以第三人称单数的动词形式出现(decides),也可能以动名词形式出现(deciding)。
对于一些名词而言,也可能以复数形式出现。
这些词的不同形式都源于同一个词根,表达的其实是同一个含义,因此需要进行词根提取。
(2)确定合并基类
一批文档可能出现多个相同短语。
作为结果,以基类为代表的文档集可能重叠甚至有些可能完全相同。
给定两个基类Bm、Bn,各自包含的文档数量分别为IBml和IBnl,IBmBnl表示两个基类共同包含的文档的数目。
如果:
IBmnBnl/lBml>0.5
lBmnBnl/[Bnl>0.5
则Bm与Bn的相似度为1,否则他们的相似度为0。
如果两个基类的相似度为1,则让代表这两个基类的节点相连,在图中所有相连的部分称之为一个类,每个类包含一组对应于基类的文档。
4.1.3STC算法的缺点
(1)需要降维
设文档集D:
(斫,以,...,砌)、词语集肌{wl,W知..,Wm),STC时间复杂度为O(1,lm)。
随着召回文档不断增加,刀值直线上升。
通常一篇新闻文档有800~2000个词,当n=1000时,800000 (2)需要计算查询关键字与文档的相关度 正如其他的聚类算法一样,STC算法对所有的文档都平等对待。 但是文档事实上不相同,文档对查询有着不同的相关性,文档对于查询的相关性随着召回的文档数量增加而减小。 基于对查询相关性小的文档创建类,会降低查询结果的质量。 4.2改进后的算法STC.I 针对4.1.3节介绍的STC算法的缺点,我们对STC算法进行改进,并使改进后的算法STC—I适用于中文文本聚类。 4.2.1预处理 (1)文档清洗 文档清洗主要负责将文档中没用的或者干扰文档信息的内容去除掉,包括HTML标签(女l ”等)、数字、实体引用(女l<等)等字符。 以上内容去除完毕后,文本中会出现杂乱无章的空白部分,需要将空白部分进行压缩,保持文本的条理性。 (2)去除停用词 停用词(StopWords)是指在文档中出现非常频繁的词,比如“a”,“the”,“的”,“你”,“我”等。 这些词对文档进行聚类没有任何帮助,只会给聚类算法增加运行丌销,因此也需要剔除。 剔除停用词必须使用停用词词典参与匹配。 4.2.2去除同义词、近义词 STC.I通过去除多余的同义词、近义词的方法给文档进行降维。 去除同义词、近义词需要同义词词典参与,目前汉语词典设计主流思想是以Trie树结构组织。 下面简要介绍一下Tile树: %e树1441,又称为单词查找树,是搜索树的一种,用于保存大量的字符串。 它的优点是: 利用字符串的公共前缀来节约存储空间。 它有3个基本性质: (1)根节点不包含字符,除根节点外,每一个节点都只包含一个字符。 (2)从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。 (3)每个节点的所有子节点包含的字符都不相同。 4.2.3确定合并基类 STC算法合并基类的方法忽略了基本类对应的文档集互相包含或几乎包含的情况。 假设Bm对应1000个文档,Bn对应50个文档,且lBml7Bn[=49,IBml7Bnl/IBmI显然小于O.5,此时应该将Bn合并到Bm。 因此,我们对合并聚类的准则稍作修改: lBm17Bnl/lBml>0.5ORBmcBn IBm17Bnl/[Bnl>0.5ORBncBm 则Bm与Bn的相似度为l,否则他们的相似度为0。 5结论 Web已经成为世界上最大的数据库,搜索引擎是人们遨游web数据海洋不可缺少的工具,搜索引擎技术也因此得到广泛的研究。 目前大部分搜索引擎都是以线性列表的形式将搜索结果返回给用户,用户想要的信息可能被淹没在庞大的返回结果列表中,给用户带来极大的不便。 本文通过在搜索引擎中添加聚类模块,从而令返回的结果分类显示,从而帮组用户快速定位自己想要的信息。 参考文献 [1]陈海龙.搜索引擎的评价标准及方法研究[J].晴报杂志,2001,(9). [2]郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,32(4),2006. [3]李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报2006. [4]Google官方网站.http: //www.readwriteweb.com/archives/google_hits_one_trillion_pages.Php [5]史忠植.知识发现[M[.北京: 清华人学出版社,2002. 如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。 copyright@ 2008-2022 冰点文档网站版权所有 经营许可证编号:鄂ICP备2022015515号-1</table等>)、特殊字符(如@,撑,%等)、标点符号(如“,”,“;",“I,,,“!