9网络信息检索讲义Word格式文档下载.docx
- 文档编号:22517167
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:30
- 大小:71.75KB
9网络信息检索讲义Word格式文档下载.docx
《9网络信息检索讲义Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《9网络信息检索讲义Word格式文档下载.docx(30页珍藏版)》请在冰豆网上搜索。
我们该讲第五个问题——检索步骤了。
检索一般分为5个步骤:
①分析研究课题
②选择检索工具
③确定检索方案
④进行具体检索
⑤查找和获取原始文献
(1)掌握与课题有关的基本知识、名词术语以及课题所属的学科范围或技术领域。
比如,给你一个题目:
生物柴油的制备,你们能想到哪些知识、名词数据和学科领域呢?
(2)分析课题的研究目的,明确检索要求。
比如,你的研究是探索性的还是攻关性的,你对文献检索的要求是要查新、查准还是查全?
(3)分析课题直接与间接提供的已知条件。
比如,我现在把前面的题目:
限定为海藻生物柴油的制备,你的检索范围就可以缩小很多
总体来看,这一步完成的好坏主要依赖你专业知识的掌握情况。
选择时应注意
◆根据课题的学科性质、所需的文献类型选择合适的检索系统。
◆根据所具备的条件选择手工检索工具或计算机检索数据库。
尽量选择计算机检索数据库
◆尽量选择报道及时、收录文献全面、索引系统完备的检索系统。
◆既要选择使用综合性的检索工具,也应注意选择使用专业
性以及单一文献类型的检索工具。
这一步完成的好坏主要依赖你对检索系统性能了解的熟练程度。
③确定检索方法
包括确定检索语言(标识)、检索途径、检索方法等。
检索语言和检索途径的选择要从检索要求、已知条件和文献检索工具的结构等几个方面综合考虑。
题名途径、号码途径一般用来查找某篇特指的文献,
著者途径用来查找某著者(或某学术团体、企业)一定时期内的工作动态。
但要系统检索某一课题的文献,主要从分类途径和主题途径入手。
确定检索途径后,还要根据课题的研究背景,确定检索方法,以提高检索效率。
在检索工具书刊比较丰富的条件下,可以利用常用法;
在获得针对性很强文献的条件下即可利用追溯法获得相关性较强的文献。
获悉研究课题出版文献较多的年代即可利用抽查法。
总之,只有视条件的可能和课题的需要选择相应的检索方案,才能迅速地获得相关的文献,完成课题检索的任务。
④进行具体查找
根据已确定的检索工具、检索途径、检索方法与检索年代,对与检索途径相匹配的索引进行具体查找,也就是将检索标识与索引中的存贮标识进行不断比较的过程。
在查找的过程中,要根据查找的具体情况不断分析,调整检索标识、检索途径和方法,直到达到满意的效果。
对检索到的文献线索进行研究和筛选。
如需原始文献,可根据文摘、题录提供的文献出处,进入收录该文献全文的数据库进行下载;
或向文献收藏单位要求文献传递服务。
对于最新文献,可向作者索取(E-mail)。
1.3.6检索策略
◆检索策略,是为实现检索目标而制定的检索方案或对策。
◆检索策略一般包括分析情报需求实质,明确检索提问,选择检索工具、检索词、检索途径,确定检索方法和检索步骤,拟定检索逻辑式,编制具体的检索程序等内容。
◆根据检索的手段不同,检索策略可分为手检策略和机检策略。
由于手工检索过程是由人查、眼看、脑子作判断而完成的,它往往只存在于检索者的脑子里,所以不必写成书面的表达语句,并且可以边查边考虑,灵活地改变检索策略。
也就是说,检索策略就是我们在检索中要发挥我们的主观能动性、要我们动脑筋的地方。
如果说前面我们讲的检索工具、检索语言等知识和技能是一些珍珠的话,检索策略就是把这些珠子穿成项链的绳子,检索策略的一个重要方面就是在你面对一个课题的时候,知道如何分析问题、选择检索工具、检索语言、检索途径、检索方法、检索步骤。
此外,包括检索逻辑式的拟定、编辑具体的检索程序等,这在进行计算机检索中更重要。
在手工检索时,检索策略可以更灵活多变。
以上就是第三节的内容,在这部分我们已经学习了很多检索的基本知识,这些知识主要适用于手工检索,有些也适用于计算机检索。
现在,计算机检索已经逐渐成为检索的主要方式,计算机检索有其自身的一些特点和方法。
我们下面就针对计算机检索所特有的一些情况进行一下介绍。
1.4计算机检索基本知识
1.4.1计算机检索
1.4.2计算机检索的特点
1.4.3计算机检索基本功能
1.4.4计算机检索方法
1.4.5计算机检索策略
计算机检索,机检,就是指检索者在计算机或联机终端上,将检索提问式按特定的检索指令输入计算机,计算机检索系统将检索提问式与数据库中的文献特征项进行匹配比较,并将符合检索提问式的文献记录输出,由计算机或终端设备显示或打印的过程。
首先,我们前面也讲过,计算机检索是指以计算机为主要检索设备的一种检索类型。
计算机检索在世界范围内的发展大致经历了以下四个阶段:
1954-1964年为产生发展期,即脱机检索阶段;
1965-1972年为成熟期,即联机检索阶段;
1973-1985年为普及应用期,即国际多机联机联网检索阶段;
1985年至今,计算机检索进入了一个高速发展、广泛应用、技术先进的时期,即光盘检索和网络检索阶段。
由于计算机运算速度快、存储容量大、还可以联网、收录范围广、更新快、服务维护好、如索引字段多、功能多样等
计算机检索主要具有
检索速度快;
检索途径多;
使用方便;
检索范围广;
检索内容新、时效性强等特点。
1.4.2计算机检索特点
(1)检索速度快
与手工检索相比,计算机检索能大大提高检索效率,节省时间和人力。
(2)检索途径多
计算机检索系统对数据库记录的许多字段都做了索引,有的系统甚至对每个字段都做了索引,所以这些字段均可作为检索入口。
(3)使用方便
计算机检索采用灵活的逻辑运算和后组式组配方式,便于进行多元检索和多途径检索。
(4)检索范围广
计算机检索能提供远程检索,所以检索数据库的范围不仅仅局限在本馆藏所拥有的数据库。
(5)检索内容新、时效性强
联机检索系统的数据库基本都定期更新数据,且更新的周期也逐步加快。
我们前面也讲过,计算机检索时,检索提问标识和文献标引标识之间的匹配工作是计算机通过运行程序自己完成的,然后计算机会按照匹配的程度把文献列出来,为了减少搜索范围、节约机时,我们在检索时给计算机提供的这个检索提问标识应该越精确越好,也就是说,不能根计算机兜圈子,有时候,仅依靠一个检索词难以满足要求,需要用若干个检索词进行组合,组合成一个检索逻辑表达式来作为检索提问标识。
为了实现这种检索词间的组合,计算机检索系统一般具有一些相应的功能。
这里我们主要介绍3种,即:
布尔逻辑检索、位置算符检索和截词符检索。
计算机检索过程中,为保证检索结果的全面准确,仅靠一个检索词是难以满足的,有时需要若干个检索词利用各检索系统提供的各种不同的检索逻辑表达式(或检索功能)来完成。
(1)布尔逻辑检索
布尔逻辑检索,是指利用布尔逻辑算符将单一检索词组配成概念复杂的检索式。
布尔逻辑算符是表达概念之间逻辑关系的一类运算符。
利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。
布尔逻辑算符是布尔逻辑检索中表达概念之间的关系的一类运算符。
基本的布尔逻辑算符有三种:
逻辑“与”(AND或*)逻辑“或”(OR或+)逻辑“非”(NOT或-)。
1)逻辑“与”
它用于两个或两个以上概念之间的相交关系或限定关系运算,表示检索结果必须满足两个或两个以上条件的单元集合。
例如,查找“计算机控制啤酒生产过程”课题的相关信息。
则检索的文献记录中必须同时含有A(计算机)、B(控制)、C(啤酒)才算命中,其检索式为A*B*C(或AANDBANDC)。
2)逻辑“或”
它用于两个或两个以上概念之间的并列关系运算,表示检索结果必须满足两个以上条件之一的单元集合。
例如,查找国外有关电视机的资料,则检索式为television+TV(televisionORTV),检得的文献记录中只要有television或TV、或者二者兼有均符合检索条件。
3)逻辑“非”
它用于在某一检索范围中排除不需要的概念运算,表示必须满足条件A但不满足条件B的单元集合。
例如,查找“除了蛋白酶的各类酶试剂”的相关材料,则检索的文献记录中必须含有A(酶)而不含有B(蛋白酶)才算命中,其检索式为A-B(ANOTB)。
利用布尔逻辑三种算符检索时,有时会同时用上,计算机会按优先顺序自动完成算符运算,其中NOT优先级最高,AND次之,OR最低。
如果要改变优先级可在检索式中添加符号。
(2)位置算符检索
位置算符检索,是指利用位置算符来限定检索式中检索词的位置关系。
位置算符是表达检索词之间位置关系—包括在记录中的顺序和相对位置的符号。
常见的位置算符有以下几种:
位置算符是在检索式中用于表示检索词之间位置关系的符号,包括在记录中的顺序和相对位置。
它能避免布尔逻辑算符不考虑检索词位置关系而引起的检索误差。
1)(W)算符(WITH)
表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。
河北W大学
2)(nW)算符(nWORD)
表示两个检索词中间可插入n个词,但它们之间的顺序不可颠倒。
河北2W大学河北工业大学
3)(N)算符(NEAR)
表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。
重金属N吸附
4)(nN)算符(nNEAR)
表示两个检索词中间可插入n个词,但词序可以颠倒。
重金属2N吸附重金属生物吸附
5)(F)算符(FIELD)
表示两个检索词必须同时出现在同一字段内,但两词的词序和中间插入的词数不限。
6)(S)算符(SUBFIELD)
表示两个检索词必须同时出现在同一子字段内,但两词的词序和中间插入的词数不限。
7)(C)算符(CITATION)
表示两个检索词必须同时出现在同一记录中,但两词的词序和所在字段不限。
8)(L)算符(LINK)
表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另一个就为二级主题词。
字段、子字段、记录和主题词的规定是与检索系统相关的。
在一个检索式中如果同时采用几种位置算符时,则须按位置算符的限制强弱来确定优先级,由左向右排列,即(W)、(N)、(S)、(F)、(C)排列,(W)级别最高,(C)级别最低。
不同的联机检索系统所使用的位置算符的种类和功能有时不完全相同。
(3)截词符检索
截词算符检索,是指利用截词算符来代替检索式中检索词的若干个字符,从而对该词的各种词性的完整词进行检索。
常见的截词算符有2种:
在检索词的词干上加一个截词符号,表示对该词的各种词性的完整词进行检索
1)有限截词
将n个截词符“?
”放在检索词的词干中或词尾可能变化的位置上,表示有0~n个字符,若在词尾,在n个“?
”后空一格再加一个“?
”,最后一个“?
”表示停止符。
例如,“stud?
?
?
”表示在词尾上有0~3个可变字符,则检出有study、studies、studied等词的记录。
又如“wom?
n”表示在词干中有1个可变字符,则检出有woman、women等词的记录。
2)无限截词
在检索词干后加1个“*”或“?
”,表示该词词尾允许变化的字符数不受任何限制。
例如“comput*(或comput?
)”,则可检出有computer、computing、computers、computering、computeriation等词的记录。
在某些联机联网系统中,“*”符号又称通配符。
针对计算机检索的功能特点,除了一般的常用法、追溯法和循环法外,还有一些特殊方法,常用的有积木法、引文珠串增长法和逐次分割法。
在计算机检索条件下常用的积木法、引文珠串增长法、逐次分割法等。
积木法。
类似于搭积木一样,把一个检索课题分成若干部分,先对各个部分进行检索,然后再进行组配,每一部分相当于各个积木,最后把搭建的积木拼成图案,这样可以把所查文献与检索课题进行比较。
其优点是能够比较清楚地提供检索逻辑式,以便以后回顾和进行检索式的保留与调用。
其缺点是耗费较多的存储容量和联机时间。
在积木法的实施过程中,宜将最专指的组面和最少文献登录数的组面优先处理,以便缩短计算机的匹配时间。
重金属生物吸附
引文珠串增长法。
即从最专指的检索词开始检索,查出少量文献。
然后检查这些文献中使用的标引词和自由词,选择其中重要的纳入修改后的检索式中,再进行检索,如此循环,使被检文献量逐步增长,直到取得满意结果为止。
这种检索方法的特点是利用联机系统的交互能力,以动态的、实验性的方法去导出合适的检索式。
其缺点是检索者的浏览与思考过程会耗费较长的联机时间。
重金属去除->
重金属+吸附->
重金属+生物+吸附
逐次分割法。
即先进行较粗泛的检索,得到一个规模较大的命中文献集合。
然后利用各种条件,以文献出版年份、文种、文献类型以及最专指的概念组的叙词等,以逻辑的方式对原来的命中文献集合进行缩小,逐次分割,类似剥笋一样,逐步逼近核心部分,从而获得一个可以接受的文献集合。
这种方法的优点是漏检较少,可以随时根据文献量的多少而灵活掌握限制条件,检索比较主动。
缺点是需耗费较多的机时。
重金属去除
由于计算机检索速度快,所以在检索时,检索策略比检索方法显得更为重要。
下面我们就来看一下计算机检索策略。
计算机检索策略是指利用计算机进行检索时,为实现检索目标而制订的检索方案或对策。
计算机检索信息时,检索提问与文献标识之间的对比匹配工作是机器进行的,必须事先拟定周密的检索策略,用计算机能够理解和运算的形式加以表达,而后交计算机执行。
因此机检时检索策略的正确与否就显得尤为重要,特别是对于一些按检索次数计费的联机检索系统。
这里我们来看看3方面的内容:
1.检索策略的制定,主要是要完成6个步骤
(1)认真分析课题,明确自己的情报需求和检索目的
即明确自己研究的课题是攻关型的还是探索型的、对信息查找的指标要求是查准、查全还是查新。
同时还要弄清所需文献信息的类型、文种、时间范围等。
(2)选择数据库或检索文档
根据上述分析首先选择数据库或检索文档,并确定检索途径。
(3)确定检索词
按照检索词表,选择能代表各个组面的检索词,或利用一些数据库提供的Expand指令或Browse功能帮助选择检索词,或手检几篇相关文献作为机检选词的参考。
(4)组配各检索单元
运用逻辑运算符将各检索单元组配起来,构造出计算机可识别、执行的检索表达式。
(5)执行检索指令
对数据库或文档进行查找,并输出检索结果。
(6)分析检索结果,完善检索表达式
重复执行步骤5,直到获得满意的检索结果为止。
2.检索表达式的制定
检索表达式也称“提问式”、“检索式”或“逻辑式”。
检索式是检索策略的具体表现。
它是将各检索单元或检索词之间用逻辑算符、位置算符、截词符、优先符等系统规定的组配符连接起来。
检索式的质量直接影响到检索结果的质量。
好的检索表达式应能获得高效、准确的检索结果。
面对一个课题,不应该只从现成的课题名称中抽取检索词或词组,应对课题名称进行一些加工处理,再形成检索式。
(切分、删除、替换、聚类、补充和组合,生成检索式,从而达到最佳检索效果)
(1)切分
切分即是对课题包含的词进行最小单元的分割。
如对课题“条形糖果包装机的设计”进行词的最小单元切分:
条形糖果包装机的设计-》条形,糖果,包装机,的,设计
注意有的词拆分后将失去原来的意思时,不应拆分。
如北京大学不可拆分为“北京”和“大学”。
(2)删除
对过分宽泛或过分具体的词、无实质意义的连词、虚词应予以删除。
如“条形糖果包装机的设计”中的“的”、“设计”。
另外,也要删除那些存在蕴涵关系的词,如“心脏病患者的治疗”中的“患者”。
(3)替换
对表达不清晰或容易造成检索误差的词予以替换。
如“绿色包装”中的“绿色”应替换成“环保”、“可降解”等表达明确、不易造成混淆的词。
(4)补充
补充是将课题筛选出的词进行同义词、近义词、相关词的扩充,这些词加入检索款目,会避免检索过程中的许多漏检情况。
(5)组合
把检索词用逻辑符连接组合成检索式。
这一过程应注意逻辑符使用得当、检索词运算顺序、排列顺序都会对检索结果产生影响。
对于课题的处理方法,不是唯一的,需要依具体情况而定,但要注意一些原则
对检索式的制定要符合以下要求:
应完整而准确地反映课题检索的主题内容;
要满足所检数据库的索引体系和检索用词规则;
要符合检索系统的功能和限制条件的规定及组配原则;
检索式应尽量简化。
3.提高信息查全、查准的方法
(1)查全的方法
为了提高查全率,往往通过采用提高检索词的泛指度,选全同义词、近义词,多用截词符;
减少使用逻辑“与”、逻辑“非”运算符,增加使用逻辑“或”运算符;
取消某些限制符,在多字段或全文中检索;
采用分类号检索等多种方法。
(2)查准的方法
为了提高查准率,往往通过采用提高检索词的专指度,增加或者使用下位词及专指性较强的自由词,少用截词符;
增加使用逻辑“与”、逻辑“非”运算符,减少逻辑“或”运算符;
多用限制符或限制字段,用文献的外部特征限制等多种方法。
好。
计算机检索的一些特有的功能、方法和技巧我们就进行到这里,我们先下课休息一会儿,一会儿开始第二章网络检索的学习。
好,我们开始上课。
现在我们开始第二章的学习,第二章主要介绍因特网的概述、常见的网络资源和一些常用的万维网搜索引擎。
第二章Internet信息检索
2.1概述
Internet是由两个英文词根“inter”和“net”组合而成,其中“inter”是指“交互的”,“net”是指“网络”。
因此“Internet”又称国际互联网,也常音译为因特网。
因特网是目前世界上规模最大、覆盖面最广、用户最多、影响最深的计算机互联通信网络。
它通过TCP/IP通信协议,将跨越国际的各种各样的计算机和计算机网络互联起来,构成一个结构松散、交互式的巨型网络。
因特网上大量的信息资源,涉及自然科学、社会科学和人文科学的各个学科与专业,包括公司企业、教育科研和医疗卫生等各种组织与机构,覆盖政治经济、文化教育、新闻出版和娱乐等各个领域。
它是一个取之不尽、用之不竭的信息宝库,它已成为当今世界上最受欢迎、最流行的全球信息资源网络。
2.1.1Internet的起源与发展
国际
1.Internet起源于1969年美国国防部高级研究项目局所建立的军用实验通讯网ARPANET。
2.1973年美国国防部开始了Internet研究项目,逐步形成了支撑现代Internet网络的基础通讯协议TCP/IP协议。
3.20世纪80年代中期美国国家科学基金会(NationalScienceFoundation,NSF)在此基础上建立了一个连接超级计算机中心的专用网络NSFNET。
随着计算机网络的普及发展,各大学、研究机构和政府部门形成了相互协作的区域性计算机网,分别连接到NSFNET上,NSFNET网络几经更新升级,逐渐取代了ARPANET,成为Internet的主干网和基础。
与此同时,世界各发达国家相继建立了自己的计算机互联网络,并利用Internet相互连接,逐步形成了世界范围的Internet。
4.20世纪90年代以来,Internet开始商业化过程,并由此推动了Internet在各行各业和老百姓中得到迅速普及。
国内
1.Internet20世纪80年代进入中国,国内的科技工作者开始接触Internet,主要还是通过拨号方式使用Internet的电子邮件系统。
2.1990年北京计算机应用所等单位在Internet上登记.CN域名,以位于欧洲的计算机做网关和域名服务器来接入Internet。
3.1993年中国高能物理研究所通过专线接入欧洲,成为中国第一个Internet网络节点。
4.高能物理研究所获准进口运行TCP/IP协议的CISCO路由器,并于1994年正式进入Internet。
之后开始了国内网络的开发研究。
5.1994~1996年,中国建成了四大网络,包括:
中国科技信息网(CSTNET)、国家教育科研计算机网(CERNET)、中国公用计算机互联网(ChinaNET)和中国公用经济信息网——中国金桥网(ChinaGBN)。
此后,国内因特网发展逐步与国际同步,逐渐形成了今天的模式。
2.1.2Internet的接入方式
只要与四大网络之一相连,就可以接入Internet,一般来说,接入Internet的基本方式有专线连接和拨号连接两种。
1.专线连接指用户计算机利用网卡通过光纤、电缆或其他专用信道与国内的四大网络相连,进而连入Internet的方式。
一般机构用户采用这种入网方式。
2.拨号连接利用调制解调器和电话线与国内的四大网络相连,进而连入Internet的方式。
这是目前最简单方便、基础投资少的一种入网方式。
2.1.3统一资源定位器(URL)
Internet用URL来确定具体资源或文件及他们所在的位置。
URL由三部分组成:
1.TCP/IP的具体应用协议包括HTTP(HyperTestTransferProtocol)、FTP(FileTransferProtocol)及TELNET、GOPHER、WAIS等。
2.服务器或主机域名或IP地址域名是由2~5段字符构成,中间用“·
”隔开。
其格式为:
“主机或服务器代码.单位或子网代码.网络分类代码.国别代码”。
例如河北工业大图书馆的WWW服务器的域名为:
。
网络分类代码常用的有ac(学术网)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 讲义