基于P2P技术的网络信息检索的探讨论文.docx
- 文档编号:3544520
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:9
- 大小:36.19KB
基于P2P技术的网络信息检索的探讨论文.docx
《基于P2P技术的网络信息检索的探讨论文.docx》由会员分享,可在线阅读,更多相关《基于P2P技术的网络信息检索的探讨论文.docx(9页珍藏版)》请在冰豆网上搜索。
基于P2P技术的网络信息检索的探讨论文
摘要:
21世纪是信息化的世纪,社会信息化程度越高,人们对信息的依赖性就越大。
信息是一切思想、事实的富有想象力的表征,它们以各种形式进行记录和传播。
信息检索是涵盖了文献检索、情报检索和知识检索的新兴技术。
基于P2P方式的信息检索系统相对集中式信息检索系统具有成本低、可扩展性好、容错性强等优点,可充分挖掘网络边缘资源,并可提供个性化的信息服务。
本文从P2P技术的基本原理入手,围绕P2P技术的基本概念、应用范围和存在的问题进行了讨论,并着重阐述了P2P信息检索技术的原理,一般结构以及P2P模式的主要信息检索方式。
关键词:
P2P;信息检索;搜索引擎
P2PTechnologyBasedonNetworkInformationRetrievalResearch
Abstract:
Thetwenty-firstCenturyisthecenturyofinformation.Thesocialinformationizationdegreemoreandmorehigh,thepeopletotheinformationdependenceislarger.Theinformationisallthought,factofimaginativerepresentation,whichinvariousformsforrecordingandtransmission.Informationretrievaliscoveredinthedocumentretrieval,informationretrievalandknowledgeretrievalofemergingtechnology.P2Pbasedinformationretrievalsystemisrelativelycentralizedinformationretrievalsystemhastheadvantagesoflowcost,goodscalability,faulttoleranceandstrongadvantages,canfullytaptheedgeofnetworkresources,andprovidepersonalizedinformationservice.ThisarticlefromthebasicprincipleofP2PtechnologywithP2Ptechnology,aroundthebasicconcept,scopeofapplicationandproblemsarediscussed,andfocusesontheP2Pinformationretrievaltechnologyprinciple,generalstructureandP2Pmodelofthemaininformationretrievalmethods,outlinesthecurrentpopularnetworkinformationresourceretrieval,suchassearchengineresearch.
Keywords:
P2P;Informationretrieva;Searchengine
目录
第一章引言1
第二章P2P技术概述1
2.1P2P定义1
2.2P2P技术特点1
2.3P2P技术的影响2
第三章信息检索概述2
3.1信息检索的定义2
3.2信息检索的原理2
3.3信息检索方法3
第四章基于P2P技术的网络信息检索3
4.1基于P2P技术的网络信息检索的提出3
4.2基于P2P技术的网络信息检索的原理4
4.3基于P2P技术的网络信息检索的主要分类5
4.4P2P检索技术的方法5
4.4.1索引构造技术5
4.4.2查询优化5
4.5基于P2P技术的网络信息检索的特点5
第五章基于P2P技术的研究6
5.1基于P2P的网络信息资源的检索—搜索引擎的研究6
5.1.1Caching技术6
5.1.2分布式的Gnutella搜索机制6
第六章基于P2P技术的网络信息检索的未来发展7
6.1发展前景7
结束语7
致谢7
参考文献8
基于P2P技术的网络信息检索的探讨
第一章引言
伴随着网络技术的发展,计算模型也相应的从传统的单机计算模型转变为网络计算模型,目前的网络计算模型主要是C/S,B/S计算模型,这两种计算模型在海量信息的组织访问等方面存在问题。
peer-to-peer(P2P)计算模型正是在此情况下为了解决海量计算单元等问题而提出的分布式计算模型。
P2P模型基于对等网络的内容存储和相对于集中式存储和检索,有着可扩展性强、实时性好、有一定组织能力、适合动态网络等优点。
第二章P2P技术概述
2.1P2P定义
P2P是Peer-to-Peer(对等网络,对等计算)的简称,中文译名为对等互联或者点对点技术,在P2P网络中各个节点被称为peer(对等体)。
P2P是一种网络模型,在这种网络中所有的节点是对等的(称为对等点),各节点无主从之分,具有相同的责任与能力并协同完成任务。
对等点之间通过直接互连共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无需依赖集中式服务器或资源就可完成。
对等网络(peertopeer,P2P)技术并不是一种新兴的技术,20世纪70年代中期,源于局域网的文件共享,P2P技术就开始流行起来了。
目前大家所关注的P2P技术,是原有技术的新应用模式。
peer在英语里有“(地位、能力等)同等者”、“同事”和“伙伴”等意义。
因此,P2P也就可以理解为“伙伴对伙伴”的意思,或称为对等联网。
目前人们认为其在加强网络上人的交流、文件交换、分布计算、协同、深度检索等方面大有前途。
2.2P2P技术特点
P2P以其独特的技术特点,成为当今文件共享的理想平台。
P2P的技术特点主要体现在以下几个方面:
(l)分散化:
网络中的资源和服务分散在所有节点上,通过各个节点间的合作,直接在节点之间完成内容的传输和服务的实现,避免了中心存储和内容交换可能存在的瓶颈。
(2)可扩展性:
在P2P网络中,节点在获取资源的同时也为其它节点提供服务。
(3)健壮性:
P2P有很强的自适应性,天生具有耐攻击、高容错的优点。
(4)高性能/价格比:
随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。
采用P2P架构可以有效地利用互联网中散布的大量普通结点,将内容交换、计算任务或存储资料分布到所有结点上。
2.3P2P技术的影响
随着各类数字终端、服务器资源、网络宽带等资源的持续发展,通过更直接的共享方式来提高通信效率、减少资源浪费并保障信息服务安全,将为信息社会带来新一轮的发展高潮,P2P正是这种新共享方式的主要候选者之一。
目前看来,P2P技术为文件共享、分布式计算和信息交流提供了更为灵活高效的模式,也为信息安全带来了新挑战和新的安全保障。
第三章信息检索概述
3.1信息检索的定义
信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
信息检索有广义和狭义的之分,广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程;狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程,狭义的信息检索包括3个方面的含义:
了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求,狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。
3.2信息检索的原理
信息检索的原理是“相符性比较”和“匹配运算”,即首先必须对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种检索系统(如手工检索工具、计算机检索的数据库与搜索引擎)。
用户根据检索课题的需要,将需求转变为系统所能识别的检索式,再与检索系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时即为命中信息。
其中存储是为了检索,而检索又必须先进行存储。
“相符性比较”即指由信息特征构成的信息标识与由检索提问构成的检索式所进行的相关性比较,完全一致的信息即为相同信息,而在某种程度上和检索要求相匹配的信息为相关信息。
3.3信息检索方法
1.顺查法
顺查法指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。
这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。
例如,己知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。
该方法优点是漏检率、误检率比较低,但工作量大。
2.倒查法
倒查法是由近及远,从新到旧,逆着时间的J顺序利用检索工具进行文献信息检索的方法。
此方法的重点是放在近期文献,只需查到基本满足需要时为止。
使用这种方法可以最快地获得新资料,而且近期的资料总是既概括了前期的成果,又反映了最新水平和动向,这种方法工作量较小,但是漏检率较高,主要用于新课题立项前的调研。
3.抽查法
抽查法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。
它适合于检索某一领域研究高潮很明显的、某一学科的发展阶段很清晰的、某一事物出现频率在某一阶段很突出的课题。
该方法是一种花时较少而又能查到较多有效文献的一种检索方法。
第四章基于P2P技术的网络信息检索
4.1基于P2P技术的网络信息检索的提出
传统的信息检索基于C/S模式,在该模式中,数据的分发采用专门的服务器,多个客户端都从此服务器获取数据。
这种模式的优点是:
数据的一致性容易控制,系统也容易管理,但这种模式对于大规模网络的环境容易造成性能瓶颈。
在网络边缘信息不断丰富的今天,我们必须在互联网上设置拥有强大处理能力和高宽带的高性能计算机,配合高档的服务器软件,再将大量的数据集中存放在上面。
这种架构使我们对服务端的投入巨大,因此服务器的个数只能是有限的,这就使系统容易出现单一失效点。
同时C/S模式使得互联网中无论是信息还是资源均向同一方向集中,它的网络优势往往被局限于企业内部,制约了企业间的信息交流,而且网络安全性较差也是一个不容忽视的问题。
从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的40%左右。
传统的集中式引擎无法胜任实时性强的海量信息检索,P2P技术的蓬勃发展却为信息检索提供了全新的思路。
在P2P网络中,每个参与网络的主机既是内容的消费者,又是内容的提供者,各个结点各自对自己本机上存储的信息做索引,所有信息提供者一起构成一个庞大的分布式数据库以供检索,这可以有效解决动态网页信息检索的问题,同时P2P网络中的每一个企业的信息点都是一个独立的Peer节点,每个Peer节点之间进行对等通讯,避免了传统C/S结构的低效和高成本,数据的集中处理又避免了P2P带来的数据分散。
4.2基于P2P技术的网络信息检索的原理
在P2P网络中,每个参与的节点既是服务器又是客户端,既是信息的提供者又是信息的消费者。
P2P信息检索的目的就是网络中的任意节点都可以提交检索的请求,然后这些检索通过某种路由机制被路由到和检索相关的节点上去,存储有和该检索相关信息的节点将会回应请求,把本地相关的内容以对等的形式直接传送到请求节点上,示意图见图3.1。
图中的检索过程分为以下几个阶段:
每个节点在加入网络的时候,会对存储在本节点上的内容进行索引,以满足本地内容检索的目的。
然后按某种预定的规则选择一些节点作为自己的邻居,加入到P2P网络当中。
(1)发起者P提出检索请求q,并将q发送给自己的邻居。
(2)P的邻居收到q后,再按照某种策略转发给它在网络中的其它邻居节点。
这样,q就在整个网络中传播开来。
(3)收到请求q的节点如果存储有相应内容信息,则将对应的内容返回。
图3.1信息检索流程
4.3基于P2P技术的网络信息检索的主要分类
P2P检索主要分成3种类型:
结构化的P2P、网络的搜索技术以及针对这2种类型的改进技术。
前出现的P2P系统具备足够的语义,能够处理复杂查询,以称为新一代的P2P检索技术。
P2P信息检索主要是要提高交互式作业方式、用户透明度,拓宽信息检索空间、提高信息检索的准确性。
4.4P2P检索技术的方法
P2P查询的关键技术包含比较广泛,核心技术包括索引构造技术、路由策略及查询优化等,下面将分别对它们进行介绍。
4.4.1索引构造技术
索引构造技术直接影响P2P系统的路由策略以及系统的查询效率,因此,构造具有丰富语义和高效的索引对于P2P系统是非常关键的,一般索引构造技术分成基于模式的索引和实例索引,模式索引为PDMS所特有,考虑了语义异构问题。
实例索引包括:
①通过散列将原始数据标识符映射到ID集合,再将ID集合映射到负责该ID的peer,可以具有多种拓扑形态的散列索引;②把数据库中B+树思想在P2P环境下进行扩展产生的树形索引。
实例索引有多种分布方法:
本地分布、集中式分布和分布式分布。
本地索引中各peer只维持对自己的数据的引用,而不管其他节点上的数据的信息;集中式索引需单个服务器上保存许多peer上数据的引用,索引是集中的,但数据是分布的;分布式索引指向目标的指针存放在多个peer上,可有效分散查询负载和索引的存储负载,具有更强的健壮性和可扩展性。
4.4.2查询优化
由于P2P网络动态的特性,不能假定具备数据分布的全局视图,也不能在这些网络中采用静态的拓扑和查询计划,使得提交的查询不太可能在整个查询处理过程中都保持原来的性质。
为此,对查询进行优化变得非常重要,这样可以加快查询执行的效率,同时减少网络流量。
4.5基于P2P技术的网络信息检索的特点
P2P系统具有自组织性、对称性、可扩展性以及分布控制等优良特性。
随着P2P系统的广泛应用,该系统被认为是未来分布式计算的关键技术,可以应用于数据共享、CPU周期共享、及时信息传输以及协同工作组件等方面,同时在搜索引擎、数据流管理、语义网、协作信息过滤等领域具有广阔的应用前景。
对P2P的研究主要集中在搜索、存储、安全和应用4个方面,而搜索是P2P技术的核心。
P2P信息检索通过分布式存储和处理能力为大范围的Web文件搜索提供可能,传统式的搜索引擎对于数据的更新缓慢不能满足用户实时性要求。
受网络爬虫采集信息能力的限制,传统的搜索引擎很难进行深度采集深层次的网页信息。
与传统的检索技术相比较,基于P2P信息检索技术有以下优点:
(1)P2P信息检索充分利用以大规模分布形式存在的信息。
(2)弥补传统搜索引擎无力深度挖掘网站信息的弱点。
(3)挖掘移动终端的信息。
(4)构建人性化的信息终端。
传统的信息检索,必须借助网络检索工具Internet上的信息极其丰富,这些信息分布在全世界不同的计算机主机上,基于超文本结构在Internet上,基于WWW的信息组织采用了超文本方式。
基于P2P技术的信息检索技术以人为本的理念使客户使用起来更加方便、容易,检索的更加彻底和透明。
未来的P2P检索技术主要是和3G技术,移动智能技术结合起来,使用户深切感受到21世纪网络时代的方便。
第五章基于P2P技术的研究
5.1基于P2P的网络信息资源的检索—搜索引擎的研究
5.1.1Caching技术
在对等网络中,索引信息的扩散是通过查询来驱动的,成功的查询结果被缓存下来,使得索引信息可以再网络扩散开来。
资源搜索效率可否再次成百倍地提高,即在用户未提出问题时就为他准备好答案,Caching技术可以使资源效率达到10-100。
尽管网络资源无限爆炸,但每一个成员及其每一次查询,所涉及到的回答域都是有限的,并且基本保持固定不变,这就是局部性原理。
计算机体系结构中关键技术指令和数据在不久的将来可能被再次访问,即下一程序指令在前条指令的概率非常大,因此,实践局部性往往会引起对最近使用区域的集中访问;空间局部性指的是一个进程访问的各项进程彼此很近,即下一次程序指令在前条指令附近的概率非常大。
前者就是程序Cache,后者就是数据Cache的理论依据。
5.1.2分布式的Gnutella搜索机制
在Gnutella中,每个节点共享一些文件,并提供基于文件名的本地查询操作。
它使用消费洪泛的方式搜索其他节点上的文件。
发起搜索操作的节点向所有邻居节点发送Query消息,而接到Query消息的节点进行本地查询,并把查询进一步转发给自己的所有邻居。
为避免无穷递归,每个搜索消息都有一个TTL域,它随着转发的进行而递减,TTL为零的消息则不再被转发。
每个请求都有一个准一的标识号。
已收到请求的节点如发现已处理过,则丢弃该请求。
Gnutella的搜索机制可以看出,个别节点失效对查询结果影响较小,能动态适应网络拓扑变化,允许节点动态加入或退出。
第六章基于P2P技术的网络信息检索的未来发展
6.1发展前景
基于P2P对等检索理念的检索技术会为互联网的信息搜索提供全新的解决之道。
它使人们在Internet上的共享行为被提到了一个更高的层次,使人们以更主动深刻的方式参与到网络中去。
未来发展方向主要是:
人机交互界面技术、关联式的综合搜索、智能化搜索、个性化搜索、结构化搜索、垂直化专业领域搜索、本土化的搜索。
近年来,信息检索过程中检索的面貌逐渐的大众化、日常化和经济化。
基于P2P技术的网络信息检索未来发展就是要帮助用户理解并表达自己的需求,从而改进用户的检索用词,使用户用起来更方便、容易、快捷、简单。
结束语
网络信息的广泛应用给人类生活带来无限方便和美好,现代社会各行各业已经不能脱离网络,网络应用已经是生活中不可或缺的一部分。
在网络应用中,信息检索是必不可少的一种途径,更方便简洁的检索技术越来越受到外界关注。
本论文是以基于P2P技术的网络信息信息检索为核心,具体介绍了P2P技术,信息检索技术,然后详细介绍了基于P2P技术的网络信息检索。
包括定义、分类、检索方式等,以及与传统检索技术相比有哪些改进。
基于P2P技术的网络信息检索作为最近几年新兴发展起来的技术,在未来许多年中将会得到很大的发展,尤其是信息爆炸的今天。
致谢
本论文是在导师李燕老师的悉心指导之下完成的。
在论文的写作过程中,我的导师李燕老师倾注了大量的心血,从选题到开题报告,从写作提纲,到一遍又一遍地指出每稿中的具体问题,严格把关,循循善诱,在此我表示衷心感谢。
她严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我。
从课题的选择到项目的最终完成,李燕老师都始终给予我细心的指导和不懈的支持。
李老师不仅在学业上给我以精心指导,同时还在思想、生活上给我以无微不至的关怀,在此谨向李老师致以诚挚的谢意和崇高的敬意。
本论文的完成也离不开其他老师和同学的帮助和支持,在此表示深深的感谢。
回想整个论文的写作过程,虽有很多不易,却让我除去浮躁,仔细思考,更加深刻的理解了网络信息检索的重要性,以及在未来基于P2P技术的网络信息检索的发展前景。
参考文献
[1]刘化君.计算机网络与通信.高等教育出版社,2007.11.
[2]JamesF.Kurose,KeithW.Ross.ComputerNetworkingATop-DownApproach.Chenming.第四版.机械工业出版社.2008.12.
[3]田口美帆.互联网技术.费珍岚.科学出版社.2004..
[4]傅向华,冯博琴.主题驱动的P2P分布式信息搜索机制研究[J].小型微型计算机系统,2006.
[5]徐光明,沈云付.基于语义网的节点关联的P2P搜索.
[6]周晋,路海明,李衍达.用Small2World设计无组织P2P系统的路由算法[J].软件学报,2004.
[7]凌波,陆志国,黄维维,等.PeerIS:
基于Peer2to2Peer的信息检索系统[J].软件学报,2004.
[8]冯国富,毛莺池,陆桑璐,等.PeerRank.一种无结构P2P资源发现策略[J].软件学报,2006.
[9]何盈捷,王珊,杜小勇.纯PeertoPeer环境下有效的Top2k查询[J].软件学报,2005.
[10]李治军,廖明宏.基于信任的P2P真实性查询及副本管理算法[J].软件学报,2006.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 P2P 技术 网络 信息 检索 探讨 论文