计算机检索的步骤和方法Word文件下载.docx
- 文档编号:19934604
- 上传时间:2023-01-12
- 格式:DOCX
- 页数:6
- 大小:20.44KB
计算机检索的步骤和方法Word文件下载.docx
《计算机检索的步骤和方法Word文件下载.docx》由会员分享,可在线阅读,更多相关《计算机检索的步骤和方法Word文件下载.docx(6页珍藏版)》请在冰豆网上搜索。
医疗保险"
和"
社会救济"
等概念,如果要检索社会保障方面的文献,应该析出上述概念,才能保证文献的查全率。
2.3核心概念的选取
有些检索词中已经含有的某些概念,在概念分析中应予以排除。
课题"
公司劳动奖励、职工培训和养老保险制度管理的理论和实践"
,如果把"
劳动奖励"
,"
职工培训"
公司"
制度"
管理"
六个概念全部组配起来,则会造成大量文献漏检。
实际上,劳动力资源管理已经包含了劳动奖励、职工培训和养老保险三个方面,而且,劳动力管理必然是针对该三个方面而言的。
因此,本课题只须采用"
劳动力资源"
这两个本质概念即可。
为了提高文献的查准率,应该从相应的规范词表中选择所需的检索词。
并且在确定检索词时,除了要考虑反映主题概念的同义词、近义词等相关的检索词外,还要注意选择被选用检索词的缩写词和不同拼法的词,以避免漏检有关的文献。
3、检索词的扩展、选择和处理
目前的计算机信息检索系统,还不具备智能思考的能力,还不会对所输入的检索词以及涉及的所有词进行自动、全面的检索,因此,必须在概念分析的基础上列出与概念有关的词,从中做出选择,并利用截词等方法对检索词予以归并。
3.1相同概念的检索词的扩展
扩展相同概念的检索词的方法一般有同义词方法、主题词表方法和截词方法
(1)同义词方法。
在同一概念的范畴内,从语言角度,选择不同的名称、不同的拼写方法和单复数形式。
不同的名称包括学名和俗名、简称和全称,商品名和物质或产品名,事物的代码和事物的学名。
不同的拼写方法,以英语为例,包括英式英语和美式英语的区别。
(2)截词方法。
当某些检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词方法扩展检索词。
这种方法要求在词干后使用截词符。
截词符一般包括"
?
*"
两种。
具体采用什么形式,各个系统都有明确的规定。
在DIALOG系统中,截词符号有无限截词算符("
)和有限截词("
?
)等多种,"
有时还用做字符屏蔽符。
(3)主题词表方法。
许多数据库都编有自己的主题词表。
在数据库编有主题词表的情况下,应该尽量从词表中选择检索词。
使用主题词表,不仅可以使检索词更加规范,提高检索结果的准确性,而且可以从同族词中选取更多的上位词、下位词、相关词,使获得的检索结果更为理想。
3.2检索词的选择和处理
运用上述方法得到的词,首先应加以选择,并且注意选用本专业通用的术语(应避免使用冷僻词和根据中文术语自译生造的词),然后以概念为单位,构成组面(facets)。
东西方社会保障制度比较研究"
的概念组面和检索词为:
概念组面1:
socialsecurity概念组面2:
制度研究"
system?
Research
4、数据库的选择
不同数据库的学科范围不同,检索指令不同,收费的标准也不同。
所以,在检索之前应该阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。
选择数据库,我们一般应该遵循以下几条原则:
1.按照课题的检索要求和目的,选择收录文献种类多、专业覆盖面宽、年代跨度对口的数据库;
2.当需要查找最新文献信息时,选择数据更新周期短的数据库;
3.当还需要获取原文时,选取原文获取较容易的数据库;
4.在同时有多个数据库可供选择的情况下,应首先选择比较熟悉的数据库。
5.当几个数据库的内容交*重复率比较高时,应选择检索费用比较低的数据库。
5、检索策略构成和调整方法
在实际检索过程中,仅需一个检索词就能满足检索要求的情况并不很多。
通常我们需要使用多个检索词构成检索策略,以满足由多概念组配而成的较为复杂课题的要求。
检索策略,又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序作出的某种安排。
构造检索策略就是运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符、位置逻辑算符等方法,表达课题检索要求的过程。
5.1布尔逻辑算符
规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。
布尔逻辑算符包括逻辑"
或(OR)"
与(AND)"
非(NOT)"
。
(1)或(OR)运算符。
也可用"
+"
代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。
其含义是,检出的记录中,至少含有两个检索词中的一个。
OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能。
在实际检索中,同一组面中含义相同的词,相互之间都使用OR运算符。
另外,在使用截词方法检索具有相同词干的检索词时,这些词之间也自动地隐含了逻辑"
或"
的关系。
(2)与(AND)运算符。
代替,用来组配不同检索概念。
其含义是检出的记录必须同时含有所有的检索词。
AND算符的基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。
在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。
(3)非(NOT)运算符。
-"
代替,但在检索时建议使用NOT,以避免与词间的分隔符"
混淆,NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。
NOT算符的基本作用是缩小检索范围,提高检索结果的查准率.
对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的。
在有括号的情况下,先执行括号内的运算;
有多层括号时,先执行最内层括号中的运算,逐层向外进行。
在没有括号的情况下,And、Or、Not的运算次序,在不同的系统中有不同的规定。
5.2位置算符
位置算符又称邻接算符(adjacentoperators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念;
彼此相邻的两个或两个以上的词;
被禁用词或特殊符号分隔的词等。
位置算符是调整检索策略的一种重要手段。
按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符,检索系统不同,规定的位置算符也不同。
例如,Compendex光盘数据库使用的位置算符"
(N)"
(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序可以颠倒)、"
(F)"
(表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,两词的词序可以颠倒)、"
(S)"
(表示其两侧的检索词必须在同一句子中出现,两词的词序可以颠倒)和"
(W)"
(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序不可以颠倒)四种(如下所列)。
(1)(nW)算符:
表示两个检索词(关键词、主题词)中间可以插入“n”个词,但他们之间的顺序不能颠倒,但允许有一空格或标点符号。
(2)(nN)算符:
表示两个检索词(关键词、主题词)中间可以插入“n”个词,且词序可以颠倒。
(3)(F)算符:
表示两个检索词(关键词、主题词)必须出现在同一个字段内,但两词的词序和中间插入的词数不限。
(4)(S)算符:
表示两个检索词(关键词、主题词)必须出现在同一个子字段内,但两词的词序和中间插入的词数不限。
注意:
在不同的数据库中,位置算符检索功能及算符不同,应参看数据库的使用说明。
5.3字段限制
字段限制也是调整检索策略的一种重要的手段。
它是限定检索词必须在数据库记录中规定的字段范围内出现的文献,方为命中文献的一种检索方法。
如果想指定在题名等字段中查找所希望的检索词,就需要使用字段限制。
字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。
由于字段限制采用前缀和后缀的形式,因此又称为前缀限制和后缀限制。
例如Compendex光盘数据库基本字段限制的用法是在需要指定字段的检索词后加上后缀运算符"
/"
和段码。
这个数据库辅助字段限制的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符"
="
常用的字段代码有标题(TI)、文摘(AB)、叙词(DE)、识别词或自由词(ID)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。
这些限制符在不同的数据库系统有不同的表达形式和使用规则。
5.4截词符检索(Truncation、WildcardSymbols)
利用检索词(关键词、主题词)的词干或不完整词形进行查找的过程为截词检索。
它可以起到扩大检索范围,提高查全率,减少检索词(关键词、主题词)(关键词、主题词)的输入量,节省检索时间。
尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法。
截词的方式有多种,可以分为有限截词、无限截词和中间截词。
(1)有限截词:
有限后截词主要用于词的单、复数,动词的词尾变化等。
将“n”个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。
(2)中间截词:
一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。
wom?
nwomanwomen
(3)无限截词:
截去某个词的尾部,是词的前方一致比较,也称前方一致检索。
在检索词(关键词、主题词)干后加1个截词符“?
”或“*”。
表示该词尾允许变化的字符数不受任何限制。
comput*可检索出computer、computing、computers、computering、computeriation等词的记录。
任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。
采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率。
另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。
不一定能满足课题检索的要求,例如:
或者检出的篇数过多,而且不相关文献所占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。
调整检索策略之前,首先要分析造成检索结果不理想的原因。
对于输出篇数过多的情况,应分析是否是由下述原因造成的:
①选用了多义性的检索词;
②截词截得过短;
③输入的检索词太少;
④应该使用"
的使用了"
;
⑤优先运算符"
()"
使用错误。
对于输出篇数过少的情况,应分析是否是由下述原因造成的:
①检索词拼写错误;
②遗漏重要的同义词或隐含概念;
③检索词过于冷僻具体;
④没有使用截词算符;
⑤位置算符和字段算符使用的过多;
⑥使用过多的"
算符。
针对上述原因,如果是属于需要扩大检索范围,提高文献查全率,调整检索策略的方法有:
①减少"
算符,增加同义词或同族相关词使用逻辑或(OR)将它们连接起来;
②在词干相同的单词后使用截词符(?
);
③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。
如果是属于缩小检索范围,提高文献查准率的,调整检索策略的方法有:
①减少同义词或同族相关词;
②增加限制概念,用逻辑与(AND)将它们连接起来;
③使用字段限制,或者限定检索词在指定的基本字段,或者指定的辅助字段出现,限制检索结果的文献类型、语种、出版国家;
④使用适当的位置算符;
⑤使用"
算符,排除无关概念。
6、输出格式和方式的选择
所谓输出格式的选择是对记录字段的选择。
所谓输出方式的选择是指对屏幕显示、打印和存盘的选择。
一般情况下,如果输出的是中间结果,属于基本字段的题目(TI)、文摘(AB)、叙词(DE)和识别词(ID)字段是必须的,这些字段有利于观察结果,对检索策略做进一步调整。
如果是最终结果,可以根据时间、经费条件选择其中适用的格式。
输出方式的选择,要注意的问题是,数据库是否只允许打印、存盘选中的记录;
在选定打印、存盘后,是否还须进一步选择"
当前记录"
全部记录"
选中记录"
另外如果是存盘,是否还有文件扩展名的限制。
7、检索效率
检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。
它直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。
检索效率包括技术效果和社会经济效果两个方面。
技术效果主要指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。
社会经济效果是指系统怎样经济有效地满足用户需要,使用户或系统本身获得一定的社会效益和经济效益。
我们以下讨论的主要是系统技术效果的评价问题。
在检索中最理想的是查全率和查准率都达到100%,就是数据库中收录的全部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。
但事实上,检索中有许多因素使这个指标很难达到,总存在一定的误差。
那么就出现了两个评价误差的指标漏检率和误检率。
在评价工作中,最常用的是查全率和查准率,而且应同时使用,否则就难以反映检索系统的功能及检索结果的效率。
查准率和查全率结合起来,描述了系统的检索成功率、查全率和查准率之间有着互逆的关系,就是说查全率提高,查准率就下降,反之亦然。
在计算机检索中,一般认为查准率为60
—70%、查全率为40—60%是较为理想的。
系统的收录范围、索引语言、标引和检索等都是影响查全率和查准率的因素。
如有侵权请联系告知删除,感谢你们的配合!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 检索 步骤 方法