Google 搜索原理Word格式.docx
- 文档编号:15352143
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:12
- 大小:35.67KB
Google 搜索原理Word格式.docx
《Google 搜索原理Word格式.docx》由会员分享,可在线阅读,更多相关《Google 搜索原理Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。
除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。
任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。
关键词WorldWideWeb,搜索引擎,信息检索,PageRank,Google1绪论Web给信息检索带来了新的挑战。
Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。
人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。
大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。
基于关键词的自动搜索引擎通常返回太多的低质量的匹配。
使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。
我们建立了一个大型搜索引擎解决了现有系统中的很多问题。
应用超文本结构,大大提高了查询质量。
我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。
1.1网络搜索引擎—升级换代(scalingup):
1994-2000搜索引擎技术不得不快速升级(scaledramatically)跟上成倍增长的web数量。
1994年,第一个Web搜索引擎,WorldWideWebWorm(WWWW)[McBryan94]可以检索到110,000个网页和Web的文件。
到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自SearchEngineWatch)。
可以预见到2000年,可检索到的网页将超过1‘000’000‘000。
同时,搜索引擎的访问量也会以惊人的速度增长。
在1997年的三四月份,WorldWideWebWorm平均每天收到1500个查询。
在1997年11月,Altavista声称它每天要处理大约20’000’000个查询。
随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。
我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scalingsearchenginetechnology),把它升级到如此大量的数据上。
1.2Google:
跟上Web的步伐(ScalingwiththeWeb)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。
抓网页技术必须足够快,才能跟上网页变化的速度(keepthemuptodate)。
存储索引和文档的空间必须足够大。
索引系统必须能够有效地处理上千亿的数据。
处理查询必须快,达到每秒能处理成百上千个查询(hundredstothousandspersecond.)。
随着Web的不断增长,这些任务变得越来越艰巨。
然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。
还有几个值得注意的因素,如磁盘的寻道时间(diskseektime),操作系统的效率(operatingsystemrobustness)。
在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。
Google的设计能够很好的升级处理海量数据集。
它能够有效地利用存储空间来存储索引。
优化的数据结构能够快速有效地存取(参考4.2节)。
进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。
对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scalingproperties)。
1.3设计目标
1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。
1994年,有人认为建立全搜索索引(acompletesearchindex)可以使查找任何数据都变得容易。
根据BestoftheWeb1994--Navigators,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。
然而1997年的Web就迥然不同。
近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。
用户感兴趣的搜索结果往往湮没在“垃圾结果Junkresult”中。
实际上,到1997年11月为止,四大商业搜索引擎中只有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。
导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。
用户仍然只希望看前面几十个搜索结果。
因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。
由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。
高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。
令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用[Marchiori97][Spertus97][Weiss96][Kleinberg98]。
尤其是链接结构[98页]和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。
Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。
1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。
1993年,只有1.5%的Web服务是来自.com域名。
到1997年,超过了60%。
同时,搜索引擎从学术领域走进商业。
到现在大多数搜索引擎被公司所有,很少技公开术细节。
这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。
Google的主要目标是推动学术领域在此方面的发展,和对它的了解。
另一个设计目标是给大家一个实用的系统。
应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(usbecausewethinksomeofthemostinterestingresearchwillinvolveleveragingthevastamountofusagedatathatisavailablefrommodernwebsystems)。
例如,每天有几千万个研究。
然而,得到这些数据却非常困难,主要因为它们没有商业价值。
我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。
为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。
设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。
系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。
我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。
2.系统特点Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。
第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。
第二点,Google利用超链接改进搜索结果。
2.1PageRank:
给网页排序Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。
我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。
这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。
因此在web中,PageRank能够优化关键词查询的结果。
对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。
对于Google主系统中的全文搜索,PageRank也帮了不少忙。
2.1.1计算PageRank文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。
PageRank发展了这种思想,网页间的链接是不平等的。
PageRank定义如下:
我们假设T1…Tn指向网页A(例如,被引用)。
参数d是制动因子,使结果在0,1之间。
通常d等于0.85。
在下一节将详细介绍d。
C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出:
PR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。
PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。
中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。
还有一些技术细节超出了本文论述的范围。
2.1.2直觉判断PageRank被看作用户行为的模型。
我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。
随机访问一个网页的可能性就是它的PageRank值。
制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。
对单个网页或一组网页,一个重要的变量加入到制动因子d中。
这允许个人可以故意地误导系统,以得到较高的PageRank值。
我们还有其它的PageRank算法,见98页。
另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。
直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。
一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。
如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。
PageRank处理了这两方面因素,并通过网络链接递归地传递。
2.2链接描述文字(AnchorText)我们的搜索引擎对链接文本进行了特殊的处理。
大多数搜索引擎把链接文字和它所链向的网页(thepagethatthelinkison)联系起来。
另外,把它和链接所指向的网页联系起来。
这有几点好处。
第一,通常链接描述文字比网页本身更精确地描述该网页。
第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。
有可能使返回的网页不能被抓到。
注意哪些抓不到的网页将会带来一些问题。
在返回给用户前检测不了它们的有效性。
这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。
然而这种结果可以被挑出来的,所以此类的问题很少发生。
链接描述文字是对被链向网页的宣传,这个思想被用在WorldWideWebWorm[McBryan94]中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。
我们大量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Google 搜索原理 搜索 原理