书签分享收藏举报版权申诉 / 31

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 教育学心理学 > WEB搜索引擎分析设计与实现.docx

WEB搜索引擎分析设计与实现.docx

文档编号：505511
上传时间：2022-10-10
格式：DOCX
页数：31
大小：602.44KB

WEB搜索引擎分析设计与实现.docx

《WEB搜索引擎分析设计与实现.docx》由会员分享，可在线阅读，更多相关《WEB搜索引擎分析设计与实现.docx（31页珍藏版）》请在冰豆网上搜索。

WEB搜索引擎分析设计与实现.docx

WEB搜索引擎分析设计与实现

本科毕业论文

WEB搜索引擎分析设计与实现

院（系）名称：

专业名称：

学生姓名：

指导教师：

二○○九年六月

摘要

随着互联网的高速发展，信息在海量的增长。

用户想要寻找到一些有用的知识非常困难，于是搜索引擎应运而生，满足广大用户的需要,现在人们已经把搜索引擎当做日常学习、工作、休闲不可缺少的一个工具。

大家都知道用搜索引擎可以快速地找到自己所要的资料或信息，那么搜索引擎是怎么工作的呢？

本文将会对这个问题进行解答。

本文首先介绍了基于Internet的搜索引擎的系统结构以及主流搜索引擎的工作原理，并利用目前流行的Heritrix+Lucene框架，分析、设计、实现了“SoEdu”搜索引擎。

论文中附上了搜索引擎的实现代码，并配上贴图，力图使本文生动，容易理解。

关键词：

搜索引擎索引HeritrixLucene

Abstract

AlongwiththehighspeeddevelopmentoftheInternet,theinformationintheInternetisincreasingmagnanimity.It’sverydifficultforuserstofindsomeusefulinformationintheInternet.SotheSearchEngineappealstomeettheusers’requirements.Thepeoplealreadytreateditasanessentialtoolforstudy,workandtheleisureactivities.Everybodyknowswiththesearchengineonemaygetthematerialorinformationthathewantstofind,andthenhowdoesthesearchenginework?

Thethesiswillanswerthisquestion.

Firstofall,thethesisintroducesthesystemstructureofthesearchenginebasedontheInternetandthetheoryofthepopularsearchengine,andusesthepopularframeworkofHeritrixandLucene.Thenanalyze,designandimplement”SoEdu”searchengine.Inthethesistherearesomecorecodeandpicturestomakemythesisvividandunderstanding.

Keywords：

SearchEngineIndexHeritrixLucene

第1章绪论

1.1课题背景

在信息大爆炸时代下，全球信息量每隔20个月就增加一倍，而这个增长速度还会进一步增加，信息增长呈现速度惊人，来源广泛，种类繁多，数量巨大的状态。

2006年制造、复制出的数字信息量共计1610亿GB，开启了前所未有的信息增长时期。

这些数字信息大约是现有书籍所含信息的300万倍，如果将书籍排列起来，总长度为地球到太阳距离（约1.5亿公里）的12倍。

据IDC报告显示，至2010年，这个数字将猛增到6倍，达9880亿GB，年复合增长率为57％[1]。

面对极度膨胀的信息量，人们受到“信息爆炸”、“混沌信息空间（InformationChaoticSpace）”和“数据过剩（DataGult）”[2]的巨大压力。

这种爆发性增长将改变机构和IT专业人员的工作方式以及消费者使用信息的方式，因此，如何从海量的信息得到有用的信息是大家关注的焦点。

从上世纪90年代互联网开始兴起，人们在方便的获得网上信息的同时，也越来越难搜索到对自己有价值的信息。

显然，通过浏览一个又一个的网页寻找所需要的信息已经不太现实，于是大多数人依赖搜索引擎来帮助自己来获得有用的信息，因此搜索引擎成为继电子邮件之后最典型的WEB应用。

早在WEB出现以前，互联网上就已经存在很多旨在让人们共享的信息资源了。

那些资源当时主要存在于各种允许匿名访问的FTP站点（anonymousftp），内容以学术技术报告、研究性软件居多，它们以计算机文件的形式存在，文字材料的编码通常是PostScript或者纯文本。

为了便于人们在分散的FTP资源中找到所需的东西，1990年出现了一个软件Archie，它可以说是所有搜索引擎的始祖。

1.2国内外关于该论题的研究现状和发展趋势

WWW中文搜索引擎带有的数据库容量小，尚未形成大型的检索系统，大型、综合、集成的元搜索引擎还没有开发出来，专业性和专题性中文搜索引擎亟需研究开发[3]。

因特网搜索引擎既是一门技术，又是一项服务，因此搜索引擎的发展应该包括搜索引擎产品技术的研发及其服务方式的改进与发展。

但是，不管搜索引擎技术如何发展，服务方式如何改进，都不应偏离用户快速、准确、方便查找信息的主导方向。

提供经过甄别、筛选、评价和专家推荐的网站信息无疑是高质量搜索引擎永恒不懈的追求，是搜索引擎智能化与专家系统交汇融合的结果。

基于问题的搜索技术可能将成为未来搜索引擎发展的新趋势，同时方便使用与查全率、查准率的协调发展也是不可忽视的方面。

1.3本文内容安排

本文章节安排如下：

第2章介绍了搜索引擎的定义，搜索引擎起源及发展和搜索引擎的分类；第3章介绍了搜索引擎的原理，其中着重介绍了网络蜘蛛“Spider”，索引和搜索；第4章从分析并设计“SoEdu”搜索引擎，先介绍heritrix和Lucene的基本原理从而分析将要实现的搜索引擎；第5章将深入设计“SoEdu”并实现“SoEdu”搜索引擎，伴以代码及贴图；第6章总结本系统的开发过程中遇到的问题，并对搜索引擎发展趋势进行讨论。

第2章搜索引擎概述

2.1搜索引擎定义

到目前为止还没有比较确切的搜索引擎的定义，在本文中搜索引擎指的是一中在Web上应用的软件系统，它以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询系统[4]。

2.2搜索引擎起源及发展

　　如前面所说搜索引擎的起源点，是1990年由Montreal的McGillUniversity三名学生（AlanEmtage、PeterDeutsch、BillWheelan）发明的Archie（ArchieFAQ）。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

　　1994年4月，斯坦福大学（StanfordUniversity）的两名博士生，美籍华人JerryYang（杨致远）和DavidFilo共同创办了Yahoo！

。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo！

的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

　　1994年初，华盛顿大学（UniversityofWashington）的学生BrianPinkerton开始了他的小项目WebCrawler。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正文的前100个字。

　　1994年7月，卡内基·梅隆大学（CarnegieMellonUniversity）的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中，创建了Lycos。

除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要。

　　1995年，一种新的搜索引擎形式出现了——元搜索引擎（AMetaSearchEngineRoundup）。

用户只需提交一次搜索请求，由元搜索引擎负责转换处理，提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

第一个元搜索引擎，是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

1995年12月，DEC的正式发布AltaVista。

AltaVista是第一个支持自然语言搜索的搜索引擎，第一个实现高级搜索语法的搜索引擎（如AND、OR、NOT等）。

用户可以用AltaVista搜索新闻组（Newsgroups）的内容并从互联网上获得文章，还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。

1998年10月之前，Google只是斯坦福大学（StanfordUniversity）的一个小项目BackRub。

1995年博士生LarryPage开始学习搜索引擎设计，于1997年9月15日注册了的域名，1997年底，在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下，BachRub开始提供Demo。

1999年2月，Google完成了从Alpha版到Beta版的蜕变。

Google公司则把1998年9月27日认作自己的生日。

Google以网页级别（Pagerank）为基础，判断网页的重要性，使得搜索结果的相关性大大增强。

Google公司的奇客（Geek）文化氛围、不作恶（Don’tbeevil）的理念，为Google赢得了极高的口碑和品牌美誉。

2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士后）在北京中关村创立了XX（Baidu）公司。

2001年8月发布B搜索引擎Beta版（此前Baidu只为其它门户网站搜狐、新浪、Tom等提供搜索引擎），2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索[5]。

2.3搜索引擎分类

搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎（FullTextSearchEngine）、目录索引类搜索引擎（SearchIndex/Directory）和元搜索引擎（MetaSearchEngine）[6]。

2.3.1全文搜索引擎

　　全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，国内著名的有XX（Baidu）。

它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，因此他们是真正的搜索引擎。

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，并自建网页数据库，搜索结果直接从自身的数据库中调用，如上面提到的7家引擎；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。

2.3.2目录索引

目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按