信息检索论文完整版Word文件下载.docx
- 文档编号:16440472
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:8
- 大小:25.20KB
信息检索论文完整版Word文件下载.docx
《信息检索论文完整版Word文件下载.docx》由会员分享,可在线阅读,更多相关《信息检索论文完整版Word文件下载.docx(8页珍藏版)》请在冰豆网上搜索。
与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。
它是获取免费软件和共享软件资源不可缺少的工具。
(2)Telnet类的检索工具
它指的是借助远程登陆在网络通信协议的支持下,在远程计算机上登陆,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的资源。
使用Telnet协议进行远程登陆时需要满足以下条件:
本地计算机上必须装有包含Telnet协议的客户程序;
必须知道远程主机的IP地址或域名;
必须知道登录标识与口令。
Telnet远程登录服务分为以下4个过程:
a.本地与远程主机建立连接。
该过程实际上是建立一个TCP连接,用户必须知道远程主机的IP地址或域名;
b.将本地终端上输入的用户名和口令及以后输入的任何命令或字符以NVT(NetVirtualTerminal)格式传送到远程主机。
该过程实际上是从本地主机向远程主机发送一个IP数据报;
c.将远程主机输出的NVT格式的数据转化为本地所接受的格式送回本地终端,包括输入命令回显和命令执行结果;
d.最后,本地终端对远程主机进行撤消连接。
该过程是撤销一个TCP连接。
Telnet类的检索工具的特点为只有文字模式,缺乏展现多媒体的能力;
不同的系统,采用不同的指令与操作方式;
必须拥有登陆口令和密码;
使用者人数受到限制;
查得的资料需逐页的显示,不利于大幅度的翻页检视。
HYTELNET是用于Telnet信息资源的检索工具。
它以超文本形式分门别类的汇集并罗列了数量相当多的Telnet信息资源,在远程登录后,对方系统往往设有专门的检索型工具,以方便用户查找和利用。
(3)基于菜单式的检索工具----Gopher
Gopher是一种交互式、菜单式信息查询软件,它将各种信息资源加以分类,再用菜单的形式显示给用户。
Gopher采用客户机/服务模式。
当用户启动一Gopher客户程序时,建立与Gopher服务器的连接,Gopher服务器发送一Gopher菜单给用户的客户程序。
菜单中的每一项都对应一个信息文件或另一个菜单。
若用户选定的菜单项对应一个信息文件,则Gopher将检索这个文件并显示其内容;
若选定的菜单项对应另一个菜单,Gopher将检索这个新菜单,使用户能够在这个新菜单中挑选一个新菜单项。
这样,在菜单的引导下,当用户选择了一个菜单项时,Gopher软件将自动确定该菜单项所驻留的计算机,用户可以对因特网上的远程联机系统进行实时访问。
Gopher只支持纯文字环境,无法提供影像、声音服务。
目前通过Gopher可以进行以下类型信息查询:
文本文件信息查询、Telnet信息查询、电话簿查询、专有格式文件查询。
这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP或Telnet命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。
这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。
在这类检索工具中最常见的是Veronica和Jughead。
如Veronica用于检索可由Gopher菜单访问的信息资源,是与Gopher配套的检索工具。
它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。
1.2web资源检索工具
web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的web检索工具多种多样,大体分为三类:
搜索引擎、目录型检索工具、多元搜索引擎。
(1)搜索引擎
搜索引擎使用自动索引软件来发现、收集并标引网页,建立数据库;
以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;
代替用户在数据库中找出与提问匹配的记录,并返回结果且按相关度排序输出。
使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。
此类检索工具的优点是信息量大且新,速度快;
缺点是准确性较差。
著名的搜索引擎如MetaVista、Excite、天网、悠游等。
根据其逻辑功能的不同,可分为:
搜索器、分析器、索引器、检索器、用户接口。
搜索器,也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。
分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。
索引器的功能是根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。
检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。
用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。
搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。
但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;
另外,检索策略的构造和输入方式也会直接影响其检索结果。
一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。
(2)目录型检索工具
它是按照某种分类体系编制的一种可供检索的等级结构式目录。
分类方法以学科分类为主,也有采用图书分类方法的。
使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。
自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。
此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。
有代表性的目录型检索工具如Yahoo、Galaxy、Lycos、网易、263等。
现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。
(3)多元搜索引擎
多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面,且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。
其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。
常用的多元搜索引擎有DOGPILE、INFEREN等。
多元搜索引擎分为并行处理式和串行处理式两大类。
并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。
多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。
如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;
作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;
而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。
多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。
这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;
但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。
2网络信息检索工具的功能
网络检索工具产生和发展的历史虽然不长,但它的功能却非常强大,关键词检索(Keyword)是最基本功能,包括以下几个方面:
2.1布尔逻辑检索
布尔检索在网络信息资源检索中使用的相当广泛,常用的布尔逻辑算符有3种:
逻辑或(运算符为OR/or,有时也可用“|”符号表示)、逻辑与(运算符为AND/and,有时也可用“&
”、“+”号表示)、逻辑非(运算符为NOT/not,有时也可用“!
”、“-”号表示)。
检索中使用逻辑算符是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。
用布尔逻辑算符表达检索要求,除要掌握检索课题的相关因素外,还应注意布尔算符对检索结果的影响。
对同一个布尔逻辑提问式来说,不同的运算次序,其检索结果亦不同。
2.2词组检索
词组检索是将一个词组作为一个独立运算单元,进行严格匹配以提高检索的精度和准确度。
词组检索是一般数据库中最常用的方法,是通过使用逗号、双引号和括号进行检索。
逗号的作用类似于OR,但“越多越好”,因为查寻时找到的关键词越多,文档排列的位置越靠前,例如:
查寻输入“计算机”、“办公自动化”和“WORD2000”,则查寻结果中,同时包含“计算机”、“办公自动化”和“Word2000”的文档将出现在搜索结果的最前边。
双引号的作用就是把引号内的关键词的组合当作一个字符串看待,然后进行检索。
例如,要检索有关古典音乐方面的信息,可以连同引号在内键入“classicmusic”,检索时就把“c1assicmusic”作为一个词来进行检索。
括号的作用与数学的括号相一致,使括号内的操作符先起作用。
例如,如果输入的关键词是:
(网址OR文档)AND(搜索OR查找),则实际检索时,关键词就是“网址搜索”、“网址查找”或“文档搜索”、“文档查找”。
2.3字段检索
字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的手段,多以字段限定方式实现。
搜索引擎常用的字段有:
Ti2tle/t(表示查找标题中包含检索提问式的页面)、Subjec(表示查找主题中包含检索提问式的页面)、Text(表示文本中包含检索提问式的页面)、bost(主机。
表示在指定的服务器上查找页面)、URL/u(表示查找URL中包含检索提问式的页面)、domain(域名表示查找指定域名的各页面)、1ihk(链接。
表示查找含有链接至URL的页面)等。
2.4截词检索
为提高查全率而设计,绝大多数网络检索都支持这一功能,有的是自动截词,有的是有条件的截词,尤其在西文检索工具中更是广泛使用。
因为西方语言的构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇,这些词之间的基本含义是一致的,如果不采取措施在检索式中列出一个词的所有派生形式,就容易出现漏捡。
截词检索按截断的位置分后截断、前截断、中截断3种类型。
不同的系统所使用的截词符也不同,常用的有“?
”、“|S”、“3”等,因此,截词检索也称为通配符检索。
例如,热点3代表“热点问题”、“热点新闻”、“热点报道”等词。
2.5 位置检索
位置检索是指允许指定2个单词之间的词序和词距的检索。
词序指单词之间前后顺序,词距指2个单词之间间隔单词数。
其操作符多为“NEAR”。
例如,网络NEAR图书馆,表示检索结果中网络与图书馆二词之间的位置比较临近。
每个支持位置检索的搜索引擎对NEAR操作的字段间隔数的设置是不同的,有的设置在25个单词之内。
2.6 概念检索
概念检索是指使用某一检索提问词进行检索时,能同时对该词的同义词、近义词、广义词、狭义词同样进行检索,以达到扩大检索,避免漏检的目的。
例如,当您使用自行车检索时,检索结果不仅包括自行车的内容,还包含脚踏车、单车等的内容。
3网络信息检索工具性能分析方法
3.1检索工具性能分析的内容
网络信息检索工具在标引过程中,大多数采用了传统检索工具的标引技术。
它包括:
分类标引技术、主题词标引技术和关键词标引技术等。
其实现方法大多是使用计算机自动标引技术来实现的。
因此网络信息检索工具的性能分析方法和内容也主要参考传统检索工具标准来进行。
同时,根据网络信息的特点,适当增加相应的性能指标和技术指标。
(1)收录信息范围。
收录范围主要指该搜索引擎网络信息的搜集范围和报道范围,网络搜索引擎从收录范围分为专用搜索引擎和通用搜索引擎。
(2)查全率。
查全率指在查询主题的所有信息中,查出信息和全部信息的比率。
它是评价网络信息检索工具的一个重要定量指标。
但是,无论是传统文献检索工具还是网络信息搜索引擎,这都是一个难于计算的指标,主要原因在于信息的总量是未知的,通常是一个大概数字,在网络信息中信息的总量更加难于计算。
(3)查准率。
查准率是在查到的全部信息中,符合查询要求的信息数量所占的比率。
(4)检索速度。
检索速度是衡量搜索引擎的一个重要指标,它包括网络传输速度和查询速度组成。
(5)检索方法。
检索方法指搜索引擎提供的检索组合方法,主要指逻辑组配(and、or、not等)方法,是否提供截词检索等。
(6)检索途径。
检索途径指检索的人口点。
对于网络检索工具,其检索途径主要是关键词检索和分类检索%由于网络信息类型的复杂性,检索工具通常提供网站检索、网页检索、新闻检索等,主要是按照信息类型提供检索途径。
(7)死链率。
死链率指在查到的信息中,不能链接的占查到总数的比率。
用来反映网络信息检索工具的可靠性。
(8)错链率。
错链率指在查到的信息中,不能链接到正确站点的链接数占查到总数的比率。
用来反映网络信息检索工具的可靠性和准确性。
(9)结果处理。
结果处理主要指是否将检索结果排序,排序的主要方法是按照与检索关键词的相关程度,或者是关键词出现的频数排序。
经过排序的检索结果,用户首先看到的是最接近用户需要的信息。
需要注意的是,关键词出现频率高的网络信息并不一定和用户的检索要求相吻合。
除了这些主要的技术指标外,网络信息检索工具的评价和性能分析还包括∃更新周期、信息搜集方式、界面设计和帮助等%评价的方法主要包括定性分析评价和定量分析评价两种。
3.2统计分析法评价网络信息检索工具
在对网络检索工具的定量分析评价中,统计分析是最常用的方法之一。
在用统计分析方法对网络信息检索工具进行分析评价时,应采用以下步骤:
(1)确定评价目标
(2)确定评价项目。
根据评价的目的要求,确定分析评价的项目和需要调查统计的项目,并制作调查表格。
(3)浏览网站。
通过对网站的浏览,确定该检索工具的收录范围,包括主题范围和信息类型范围。
(4)选择关键词。
对网络检索工具进行统计分析,必须用实际的关键词在检索土具中查找,然后对查找结果进行分析,因此必须有检索的关键词。
同时,在统计时,不可能对所有的关键词和网络中的所有信息进行统计,通常采用抽样调查的方法,选取若干关键词,通过对若干关键词查询结果的统计分析,来分析网络信息检索工具的一般情况。
_
(5)计算统计结果%根据统计结果计算查全率和查准率等,其计算方法如下
设样本数为n,单个关键词的查准率为C1,死链率为D1,错链率为E1,则
平均查准率
平均死链率
平均错链率
上述结果通常可以反映该搜索引擎的基本性能,但是由于样本的选取范围和选取数量的限制,这些数字往往有可能与实际的查询结果有一定出入。
(6)汇总分析结果,得出结论。
对统计结果进行分析,进而分析该检索工具的信息数量、信息质量和可靠性,并做出判断和结论。
4网络信息检索工具的发展趋势
科学技术的日新月异和用户需求的不断提高促使网络检索工具相应发展,其发展趋势大致可以分为以下几个方面:
一是检索工具的智能化。
智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表达的检索要求进行分析,形成检索策略进行检索。
它主要包括智能搜索引擎、智能浏览器、智能化自动索引软件。
检索工具的智能化的内涵在于检索工具具有学习、分析、辨别推理的能力,它们按照用户的要求,对信息进行更深一步的分析,然后交由用户。
二是用户友好化进一步提高。
未来科技的发展都要以人为本,网络信息检索也不例外,用户友好化是一个重要的发展趋势。
它主要包括两个方面的内容,一是用户界面友好化,使用户更方便、快捷的使用各种检索工具,满足用户各种检索要求。
另一方面是更好的检索结果提供方式,使用户方便的进行浏览、选择和利用。
三是信息提供的深入化。
这也包括两个方面,一是检索深度的提高,现阶段,网络检索大多实行相关性检索,其结果往往是海量的,这会分散用户的注意力,背离原有的目的。
为避免这种情况,就要求提高检索深度,由相关性检索向直接性检索发展。
另一方面是检索内容的综合化与专业化相结合。
网络既提供广泛的信息,又提供更深的内容,依次服务于用户。
5.网络信息检索工具的竞争力要素
5.1众多的网络信息检索工具面临着竞争的局面
虽然网络信息检索工具几乎都供免费使用,但实际上,开发、维护这些检索工具的信息服务机构多数以盈利为目的。
每一个商业性信息服务机构为了收回开发网络信息检索工具所投入的资金,为维护和进一步发展所开发的检索工具还需继续投人,并力求获得更多盈利而信息市场空间是有限的,故各种网络信息检索工具都面临着竞争的局面。
网络信息检索服务机构股票的上市,正说明了网络信息检索服务是一种商业活动,以盈利为目的而不可避免市场竞争。
也有一些属于非盈利性的开发机构,它们所开发的网络信息检索工具一般仅为本单位_如高等学校_人员服务,并且规模也不大,投入资金有保障,但也有一个保证质量以取得实效的问题。
现在,这类检索工具中一些投人较大而有相当规模者,也要求推向市场,作为第三产业经营管理,因而也要面临市场竞争。
5.2有效服务是增强网络信息检索工具竞争力的核心
网络信息检索工具竞争取胜的主要标志是拥有更多的用户,提高检索工具的声誉和权威性。
用户数量及他们对检索工具的评价是关键。
一个网络信息检索工具实际上有两部分用户一部分是希望利用检索工具获取信息以解决自己问题的用户(_这是在明面上的用户)_,一般为其免费服务,但也有少数项目可以收费;
另一部分是希望利用检索工具传播自身信息的用户(_这是在其背后的用户)_,其中多数用户要付费,是网络信息服务机构收益的主要来源。
但这两部分用户都很重要,缺一不可,而且互相影响。
很明显,一个用户很少、声誉不高、没有权威性的网络信息检索工具,它的各种收入是不可能很多的。
用户数量的增长和声誉的提高来自于有效的服务,特别是对希望利用检索工具获取信息以解决自己问题的那一部分用户的有效服务。
有效服务是增强网络信息检索工具竞争力的核心。
有效服务是以网络信息检索工具的各种竞争力要素为基础的。
5.3网络信息检索工具竞争力诸要素
(1)检索工具对服务对象的适应能力
(2)覆盖率和信息量
(3)标引深度和标引准确率
(4)检索功能的多样性和高效性
(5)数据库提供信息的时效性
(6)检索工具的易用程度
(7)导航服务、文献数据库服务、具体信息发布传递服务相结合
(8)特色服务项目
(9)注重中国特色
(10)减负原则的贯彻
(11)联合经营
(12)价格策略
网络信息检索工具的研究具有非常重要的意义,随着信息技术和新一代因特网的发展,它的研究和应用也将迈上一个新的台阶,我们期待着网络信息检索工具的发展为网络信息资源检索带来一个美好的明天。
参考文献
[1]彭丽喃.专门、专业网络检索工具研究[J].现代情报,2004,
(1):
89—90.
[2]王相华.网络信息检索工具发展现状及趋势[J].今日科技,2002,(8):
27—29.
[3]高凡.基于关键词的网络信息资源检索[J].情报杂志,2003,(11):
90—92.
[4]张彦洁,张向华.网络信息资源的检索方法和技巧[J].现代情报,2003,(6):
22—24.
[5]谌新华.网络信息资源搜索方法[J].现代情报,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 论文 完整版