简单搜索引擎分析与开发毕业设计论文Word文档下载推荐.docx
- 文档编号:12988663
- 上传时间:2022-10-01
- 格式:DOCX
- 页数:48
- 大小:300.46KB
简单搜索引擎分析与开发毕业设计论文Word文档下载推荐.docx
《简单搜索引擎分析与开发毕业设计论文Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《简单搜索引擎分析与开发毕业设计论文Word文档下载推荐.docx(48页珍藏版)》请在冰豆网上搜索。
指导教师签名:
日 期:
使用授权说明
本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;
学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;
学校可以采用影印、缩印、数字化或其它复制手段保存论文;
在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
48
目 录
第一章绪论 5
第一节开发背景 5
第二节研究现状 5
第三节搜索引擎的发展 6
第二章总体设计 8
第一节可行性研究 8
一、问题的定义 8
二、技术可行性 8
1、信息收集和存储技术 8
2、信息预处理技术 8
3、信息索引技术和搜索技术 9
三、开发工具 9
第二节需求分析 9
一、系统基本功能 10
二、系统模块组成 10
1、网络爬虫模块 10
2、索引模块 10
3、搜索模块 10
4、用户接口 11
第三章 功能实现 11
第一节 模块详解 11
一、网络爬虫模块 11
1、配置Heritrix 11
2、定制定向爬虫 12
3、创建一个新的抓抓取任务 13
4、镜像方式存储 16
5、网页预处理 16
二、搜索引擎实现模块 19
1、整体架构 19
2、用户接口 20
3、请求servlet 21
4、搜索器 24
5、索引器 24
第四章 部署运行 25
第一节、运行环境 25
第二节、运行效果 26
第五章 技术难点分析 28
第一节 中文分词 28
一、什么是中文分词 28
二、中文分词和搜索引擎 28
三、中文分词技术 28
四、Lucene3.0中的几种分词系统 30
第二节 使用中文分词 32
第六章 总结 35
第七章 致谢 36
摘要
在浩瀚的网络资源中,搜索引擎(SearchEngine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。
何为搜索引擎?
搜索引擎是指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行处理和组织后,为用户提供检索服务的系统。
本文结合搜索引擎的历史,现状,发展趋势分析一个简单搜索引擎开发的目的和意义、设计思想以及技术实现等。
搜索引擎的原理可以分为四部分:
从互联网上抓取网页,建立索引库,在索引数据库中排序,对搜索结果进行处理和排序。
结合搜索引擎的原理本课题给出了几个重要模块:
Heritrix网络爬虫模块、预处理模块、建立索引模块(index)、查询模块等。
本系统开发平台为Eclipse,采用Java开发语言结合Htmlparper,Lucene完成具体实现,在Web服务器上部署发布。
关键词:
SearchEngine;
JAVA;
搜索引擎;
Web;
Heritrix;
Lucene;
index
Abstracts
Inthevastnetworkofresources,searchengines(SearchEngine)isanonlineinformationretrievaltoolthathelpsuserstoquicklyandcomprehensivelytofindtheinformationtheyneed。
what'
sSearchEngine?
SearchengineisbasedoncertainstrategiesandusespecificcomputerprogramstocollectinformationontheInternet,andprovidesearchservicesforusersofthesystemafterorganizationfortheinformation.
Inthearticle,weconcludethehistory,currentsituationanddevelopmenttrendofthesearchengineanddiscussthepurposeandsignificance,designandtechnicalrealizationofasimpleSearchEngine.TheprincipleoftheSearchEnginecanbedividedintofourparts:
Crawledpagesfromtheinternet,Libraryindexing,Sortedintheindexdatabase,Ontheprocessingandsortingsearchresults.CombainingtheprincipleoftheSearchEngine,theissuesgivesseveralimportantmodules:
HeritrixWebcrawlermodule,Pre-processingmodule,Indexing
module(index),QueryModuleetc.
TheplatformofthissystemisEclipse,JavadevelopmentlanguageusedwithHtmlparper,Lucenecompleterealization,publishedintheWebserverdeployment.
Keywords:
Web ;
第一章 绪论
第一节 开发背景
在中国,搜索引擎逐渐步入人们的生活,并成为人们上网必不可少的一部分,大家熟悉的Google和Baidu是两大著名搜索引擎,而从2005年以来,Google在中国的影响力没有Baidu强,百度的运行模式采用商业运作,即采用商业竞价的模式,网站为了在百度有个好的排名,需要向百度支付一定的费用,相比之下,
Google就显得更加慷慨和公平,他采用著名的PageRank算法,为每一个网页根据其关键性计算一个 PR值,用于最后的搜索排序,最初的设计只是采用了
PageRank作为网页权重的一个标准,后来逐渐有了部分网站使用作弊,比如关键字堆砌、链接循环等,使得完全依靠这种算法已经不能再“公正”下去了,后来Google也意识到这一点,将这个PageRank权值乘以一个小于1的系数再加上其他权值,进行改善后的算法很好的对付了网页作弊行为。
Google和百度两大公司在很多地方都值得互相学习借鉴,比如在输入智能纠错、缓存最近频繁搜索等,Google不但在搜索技术方面做深入研究,还将其技术渗透到其他领域,如浏览器、电子地图还有网页文档在线等,而这些都在很大程度上让Google站在了一个很高的层次,然而为何在中国,他依然是Baidu的下风呢?
李开复诚言:
Google有能力超过Baidu。
究其根源,还是Baidu更加注重了中文的特点,能够很好的对中文进行信息检索。
尽管中国的搜索引擎现在呈现出Google、Baidu二分天下的局面,但是也要看到有很多其他的搜索引擎正在兴起,比如你要用迅雷下电影,就少不了用到
gougou,当然gougou最初也是采用的Google的搜索引擎,现在也正在向独立的方向发展。
越来越多的公司也对自己的网站加入了搜索引擎,搜索引擎的发展将逐渐壮大,同时更加个性化的,更加人性化的搜索服务即将出现。
搜索引擎发展十来年,其技术都有了很大的进步,很多技术可以算是成熟,万维网创始人伯纳斯-李曾经说过可能出现一种新的搜索(他说的是语义网搜索)会取代现在蓬勃的Google,其实这种说法也未必不正确,几年前我们在使用搜索引擎的时候,提交关键字需要等几分钟,现在我们只需要等几秒钟,实际上搜索引擎返回结果都设定在1秒以内,这种效果在现在看来,我们觉得很自然,也觉得没有什么大不了,然而让以前的人看来,这个进步是非常大的,然而随着人们生活节奏的加快,我们现在需要依赖搜索引擎的不再是他是否能在1秒以内
返回结果(即使在0.00001秒返回结果,人们也不觉得他有多好,毕竟在秒级人们是不能多作些什么的,当然,这对搜索引擎就很有价值了,比如他可以搜索更多的资源),而是希望他返回的结果不再是成千上百的网页链接,我们需要的是在第一页,最好在第一条返回结果就是我们想要的答案!
这就涉及到语义的分析,以及用户模型的建立等技术。
总之,现有搜索引擎技术的进步会随着人们的需求不断地改变,中国的搜索引擎会向一个多元化、个性化、服务化的方向发展,中国经济的兴起会带动更多的搜索引擎不断发展壮大。
第二节研究现状
1.国际著名搜索引擎现状
Google免费搜索引擎。
顶部搜索结果将列入LookSmart,Yahoo,及OpenSourceDirectory.Google非常关注外部链接,如果一个网站有较多质量较好的外部链接,将获得较高的排名。
它的AdWords/AdSelect也将作为查询结果显示。
AOLSearch从Google搜索数据库中获得查询结果。
想在AOL中获得好的排名应该关注Google的排名规则。
Baidu百度的运行模式采用商业运作,即采用商业竞价的模式,网站为了在百度有个好的排名,需要向百度支付一定的费用
2.各种搜索引擎的不足之处
(1)大多数中文搜索引擎的查询方式比较单一
一般搜索引擎只提供分类浏览的查询方式和关键词全文检索方式,缺乏其他途径的查询方式,并且关键词全文检索方式也比较简单。
(2)目前网上的中文信息较少
相对于网上的外文资源而言,网上的中文信息资源较少,而且ISP中文站点的质量也是良莠不齐,信息更新的速度慢。
通常是几个月才有所更新。
而对搜索引擎而言,ISP站点的内容的质量也是十分的重要,它和搜索引擎之间是鱼水的关系。
本课题主要在于研究一个简单搜索引擎的构成,以及实现技术。
第三节搜索引擎的发展
目前各种各样的中文搜索引擎越来越多,发展速度也越来越快。
每个搜索引擎都有各自的特点,但从目前来说,中文搜索引擎的发展呈现以下的趋势。
1.支持目录式分类结构和全文检索
分类搜索引擎的优点是将信息系统地归类,可以使用户清晰方便地查找到某一大类信息,这符合传统的信息查找方式,但目录式搜索引擎的搜索范围较全文
搜索引擎小许多,尤其是当用户选择类型不当时,有可能遗漏某些重要的信息源全文搜索引擎的优点是查询全面而充分,用户能够对各网站的每篇文章中的
每个词进行检索。
全文搜索引擎真正提供了用户对Internet上所有资源进行检索的手段,给用户以最全面
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 搜索引擎 分析 开发 毕业设计 论文