2搜索引擎工作原理Word下载.docx
- 文档编号:15391742
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:23
- 大小:272.76KB
2搜索引擎工作原理Word下载.docx
《2搜索引擎工作原理Word下载.docx》由会员分享,可在线阅读,更多相关《2搜索引擎工作原理Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
当时,“机器人”一词十分流行,“机器人”是指快速不间断地执行某项任务的程序。
由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎“机器人”程序也被称为“蜘蛛”程序。
世界上第一个监测互联网发展规模的“机器人”程序是MatthewGray开发的WorldwideWebWanderer。
刚开始它只用于统计互联网上服务器的数量,后来发展成为能够检索网站域名。
与Wanderer相对应,MartinKoster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。
ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目录。
随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在MatthewGray的Wanderer基础上,将传统的“蜘蛛”程序作了改进。
其设想是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。
到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天Overture,已被雅虎收购),和Repository-BasedSoftwareEngineering(RBSE)spider最负盛名。
然而JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。
而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。
最早现代意义上的搜索引擎出现于1994年7月。
当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。
同年4月,斯坦福(Stanford)大学的两名博士生,DavidFilo和美籍华人杨致远(GerryYang)共同创办了超级目录索引雅虎,并成功地使搜索引擎的概念深入人心。
从此搜索引擎进入了高速发展时期。
目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。
例如:
Google号称数据库中存放的网页已达40亿!
2.2搜索引擎分类
搜索引擎按照工作方式可以分为三种,分别是“全文搜索引擎”、“目录索引类搜索引擎”及“元搜索引擎”。
2.2.1全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有Google,Yahoo!
;
而国内比较著名的全文搜索引擎就有XX等。
它们都是通过从互联网上提取各网站的信息(以网页文字为主)而建立数据库,再从这个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按照一定的排列顺序返回给用户。
从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自行建立网页数据库,搜索结果就直接从自身的数据库中调用。
2.2.2目录搜索引擎
目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是按照类别向用户展示相关网站列表的普通网站而已。
目录搜索引擎中最具代表性的要数雅虎了(雅虎通过一轮番的并购及研发,已经挤身顶尖全文搜索引擎行列),其他还有ODP(即DMOZ)等。
2.2.3元搜索引擎
元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile、Vivisimo等。
在搜索结果排列方面,有的直接按照来源排列搜索结果,例如:
Dogpile;
而有的则是按照自定的规则将结果重新排列组合后再返回给用户,例如:
Vivisimo。
除上述三大类搜索引擎以外,还有以下几种非主流形式的搜索引擎:
1.集合式搜索引擎:
这一类搜索引擎与元搜索引擎类似,但区别在于不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如:
HotBot在2002年底推出的搜索引擎。
2.门户搜索引擎:
虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,它的搜索结果完全来自其他搜索引擎,例如:
国内的“新浪”及“搜搜”的搜索功能就是由Google提供的。
3.免费链接列表(FreeForAllLinks,简称FFA):
也就是常见的链接交换系统,这类网站一般只简单地排列出网站的链接条目,一小部分还会有简单的分类目录,不过规模比起Yahoo这样的人工分类目录要小得多。
2.3搜索引擎工作原理
搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每一个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。
因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。
搜索引擎的主要工作包括:
“页面收录”、“页面分析”、“页面排序”及“关键字查询”。
1.页面收录
页面收录就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行储存的过程,为搜索引擎开展各项工作提供了数据支持。
2.页面分析
页面分析首先是对原始页面建立索引,实现对页面的快速定位;
然后,提取页面的正文信息,并对正文信息进行切词以及为这些词(即:
关键字)建立索引,从而得到页面与关键字的之间对应关系;
最后,对所有关键字进行重组,并建立关键字与网页间对应关系的反向索引列表,从而实现根据关键字快速定位至相应的网页。
3.页面排序
搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。
4.关键字查询
搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配以后,再向用户返回相应的页面排序列表。
在本章接下来的内容里将向读者介绍搜索引擎各个主要工作的流程、原理及作用,以及在对网站进行优化时应该如何应对。
2.3.1搜索引擎对页面的收录
搜索引擎收录页面实际上就是在互联网上进行数据采集①,这是搜索引擎最基础的工作。
搜索引擎的数据采集能力直接决定搜索引擎可提供的信息量及对互联网覆盖的范围,从而影响搜索引擎的质量。
因此,搜索引擎总是想方设法地提高它的数据采集能力。
在本节里,首先会介绍搜索引擎收录页面的流程及方式,再介绍搜索引擎对已收录页面的储存及维护方式。
1.页面收录流程
在互联网中,URL是每一个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取到页面的。
搜索引擎蜘蛛程序从URL列表出发,通过URL抓取并储存原始页面;
同时,提取原始页面中的URL资源并加入到URL列表中;
如此不断地循环就可以从互联网中获取到足够多的页面,如下图2-1所示。
__________________
注①:
搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序(spider)或者机器人程序(robot)。
图2-1搜索引擎抓取页面简单流程
URL是页面的入口,而域名则是一个网站的入口。
搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。
换而言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。
而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。
下面向大家介绍两种常用的加入搜索引擎域名列表的方法:
第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交我们网站的域名,例如:
Google的网站登录地址:
“
第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。
这种做法主动权掌握在我们自己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也比向搜索引擎主动提交要快得多。
视乎外部链接的数量、质量及相关性,一般情况下,2-7天左右就会被搜索引擎收录。
2.页面收录
通过上面的介绍,相信读者们已经掌握了加快网站被搜索引擎收录的方法。
然而,怎样才能提高网站中页面被收录的数量呢?
这就要从了解搜索引擎收录页面的工作原理开始。
如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。
不停地从URL列表中移出已经访问过的URL,并储存原始页面,同时提取原始页面中的URL信息;
再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未被访问过的URL加入URL列表中。
递归地扫描URL列表,直至耗尽所有URL资源为止。
经过这些工作,搜索引擎就可以建立庞大的域
______________________
①在实际中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链接去抓取其他页面。
名列表、页面URL列表及储存了足够多的原始页面,如下图2-2所示。
图2-2搜索引擎收录页面的工作原理
3.页面收录方式
在上面的内容里,作者已经向大家介绍了搜索引擎收录页面的流程及原理。
然而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相对重要的页面呢?
这就涉及搜索引擎的页面收录方式问题。
页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出更多相对重要的信息。
页面收录方式的制定取决于搜索引擎对网站结构的理解,如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,收录的页面数自然也就更多。
因此,加深对搜索引擎页面收录方式的认识,会有利于为网站建立友好的结构,提高页面被收录的数量。
常见的搜索引擎收录页面的方式主要有“广度优先”、“深度优先”及“用户提交”三种,接下来将详细介绍这三种页面收录方式及各自的优缺点。
(1)广度优先
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。
广度优先就是从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入到下一层,是一种横向的页面抓取方式。
因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如:
在首页上推荐一些热门产品或者内容)。
反过来,通过“广度优先”的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。
我们来看一下广度优先的抓取流程:
首先,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;
再跟踪这些链接抓取下一层的页面,形成页面集合(B);
就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程,如下图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 工作 原理