搜索引擎概述.docx
- 文档编号:7077909
- 上传时间:2023-01-17
- 格式:DOCX
- 页数:14
- 大小:33.77KB
搜索引擎概述.docx
《搜索引擎概述.docx》由会员分享,可在线阅读,更多相关《搜索引擎概述.docx(14页珍藏版)》请在冰豆网上搜索。
搜索引擎概述
搜索引擎概述
第一部分:
搜索引擎发展史
第二部分:
搜索引擎原理
第三部分:
常用中英文搜索引擎指南
第一部分:
搜索引擎发展史
1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie(ArchieFAQ)。
虽然当时WorldWideWeb还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。
Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。
ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(SpiderFAQ)程序。
世界上第一个Spider程序,是MITMatthewGray的WorldwideWebWanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),它相当于Archie的HTTP版本。
ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。
其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:
Scotland的JumpStation、Colorado大学OliverMcBryan的TheWorldWideWebWorm(FirstMentionofMcBryan'sWorldWideWebWorm)、NASA的Repository-BasedSoftwareEngineering(RBSE)spider。
JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。
而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。
到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做ExciteforWebServers。
(注:
Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(TradewaveGalaxy)上线。
除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,StanfordUniversity的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo(JerryYangAlertsaUsenetgrouptotheYahooDatabase,1996年的Yahoo)。
随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!
的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。
Yahoo!
中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
(注:
Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。
并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生BrianPinkerton开始了他的小项目WebCrawler(BrianPinkertonAnnouncestheAvailabilityofWebcrawler)。
1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
(注:
后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(CarnegieMellonUniversityCenterforMachineTranslationAnnouncesLycos)是搜索引擎史上又一个重要的进步。
CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。
1994年7月20日,数据量为54,000的Lycos正式发布。
除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:
1994年8月--394,000documents;1995年1月--1.5milliondocuments;1996年11月--over60milliondocuments。
(注:
1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(SteveKirschAnnouncesFreeDemosOftheInfoseekSearchEngine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。
起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!
和Lycos的概念,并没有什么独特的革新。
但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。
Infoseek的友善用户界面、大量附加服务(suchasUPStracking,News,adirectory,andthelike)使它声望日隆。
而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:
当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!
提供该服务。
(注:
Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了——元搜索引擎(AMetaSearchEngineRoundup)。
用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。
(注:
元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
)
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVistaPublicBetaPressRelease)。
但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。
Altavista最突出的优势是它的速度(搜索引擎9238:
比较搞笑,设计altavista的目的,据说只是为了展示DECAlpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。
AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。
用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。
AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。
AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。
在面向用户的界面上,AltaVista也作了大量革新。
它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。
这系列功能,逐渐被其它搜索引擎广泛采用。
1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
(2003年2月18日,Altavista被Overture收购。
)
然后到来的是Inktomi。
1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier创立了Inktomi(UCBerkeleyAnnouncesInktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。
声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。
HotBot也大量运用cookie储存用户的个人搜索喜好设置。
(注:
Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。
它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7,100多出版物组成的SpecialCollection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
(注:
2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"WorldWideWebonly",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。
1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下,BachRub开始提供Demo。
1999年2月,Google完成了从Alpha版到Beta版的蜕变。
Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。
直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。
1999年5月,发布了自己的搜索引擎AllTheWeb。
Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。
Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。
(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma起源于1998年Rutgers大学的一个项目。
ApostolosGerasoulis教授带领华裔TaoYang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎AskJeeves收购,2002年4月再次发布。
Teoma的数据库目前仍偏小,但有两个出彩的功能:
支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut由韩裔YeogirlYun创立。
2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。
wisenut也有两个出彩的功能:
包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast由前Infoseek工程师MattWells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。
Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:
这个spammers的肉包子功能暂已关闭)。
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。
Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。
2002年6月,Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。
2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了XX(Baidu)公司。
2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
Baidu搜索引擎的其它特色包括:
XX快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。
2002年3月闪电计划(BlitzenProject)开始后,技术升级明显加快。
第二部分:
搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。
所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。
而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:
从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1.从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2.建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。
这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。
大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千G甚至几万G。
但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。
我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。
而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:
搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。
你也应该有这个概念:
如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
第三部分:
常用中英文搜索引擎指南
常用中文搜索引擎
Baidu
约1.24亿中文网页,平均2周更新一遍,对部分网页每天更新。
提供XX快照、网页预览/预览全部结果、相关搜索词、错别字纠正提示、Flash搜索、信息快递、XX搜霸、搜索援助中心,推荐使用MP3搜索。
Baidu搜索技巧
Google中文
中文网页数不详,按比例推算约8500万。
平均1月更新一遍,对部分网页每日更新,由BasisTechnology提供中文处理技术,搜索相关性高,高级搜索语法丰富。
提供Google工具条、网页快照、图像搜索(4.25亿图片)、新闻组搜索。
Google搜索帮助
Alltheweb
(Fast)
4480万简体中文网页,1401万繁体中文网页,需单选中简体中文语言搜索,否则效果不好。
Openfind中文
中文网页数不详,从检索效果上看与Google相近。
更新较慢,提供按网页大小或日期排序。
Openfind查询秘诀
4c2利率网
约6000万网页,更新略慢,搜索相关性较低。
提供天网搜霸、历史网页。
推荐使用ftp搜索。
天网使用帮助
Inktomi/MSN
Altavista
Inktomi和Altavita收录中文网页也以千万计,但因为它们没作中文特殊处理,所以用简单的中文关键词可以搜到一些内容,但用稍长一点或组合关键词查询时,搜索效果就很差。
其它如Wisenut、Gigablast等,也能搜索一点点中文,但因为没做中文特殊处理,一样没有搜索价值。
常用英文搜索引擎
30亿网页(约1/4非全文索引),用户界面出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。
Alltheweb
(Fast)
21亿网页,高级检索强大,有新闻、图片、MP3、Video、ftp,利用ODP对搜索结果简单分类。
Altavista
约7亿网页,有图像(5.4亿图片)、音频、视频文件、新闻搜索,高级语法强大,有prisma辅助检索。
(部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索。
)
Inktomi
自称30亿网页(搜索效果上看不出这么多),技术设置和参数可调性高,支持的门户搜索数据库和排序多不同,可到Hotbot使用Inktomi的高级搜索。
Northernlight
约7亿网页+7100出版物数据,需选中"WorldWideWebonly"搜索。
速度略慢,杂志数据有独特搜索价值,能对结果作简单自动分类,翻页数不限,支持通配符。
Wisenut
约14亿网页,网页索引数据库偏老,提供类似简单自动分类和相关检索词的WiseGuide,及预览搜索结果的Sneak-a-Peek。
Openfind
自称35亿网页(搜索效果上看不出这么多),旧网页死链接多,支持按网页大小或日期排序。
Teoma
约3亿网页,速
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 概述