安徽省图书资料系列职称考试《信息检索》考试重点.docx
- 文档编号:23239895
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:27
- 大小:37.63KB
安徽省图书资料系列职称考试《信息检索》考试重点.docx
《安徽省图书资料系列职称考试《信息检索》考试重点.docx》由会员分享,可在线阅读,更多相关《安徽省图书资料系列职称考试《信息检索》考试重点.docx(27页珍藏版)》请在冰豆网上搜索。
安徽省图书资料系列职称考试《信息检索》考试重点
安徽省图书资料系列职称考试
《信息检索》考试重点
1.信息,指的是事物的存在方式和运动状态,是对客观世界中各种事物的变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
这里强调信息是事物属性的表征,即信息不是事物本身,而是用来表现事物特征的一种普遍形式。
2.信息的特征:
①客观性②普遍性③可存贮性④可传递性⑤扩散性⑥共享性⑦时效性
3.信息的功能:
①经济功能②选择与决策③管理与协调④研究与开发
4.知识是人类通过信息对自然界、生物界、人类社会运动规律的认识和概括,是人的大脑通过思维重新集成整合的系统化信息,是信息中最有价值的部分。
也就是说,信息是产生知识的原材料,知识是信息加工的抽象化产物。
知识是一种特定的人类信息,它是对信息进行提炼和深化的结果。
5.知识的类型:
①显性知识和隐性知识②实体知识和过程知识③核心知识和非核心知识
6.情报是具有特定传递对象的特定知识或有价值的信息。
7.情报的特征 ①动态性②按特定方式传递③为特定目的服务的④常常带有一定的时效性和机密性情报的类型
8.根据情报的来源与加工程度划分,情报可分为:
①零次情报②一次情报③二次情报④三次情报零次情报,是指未公开于社会、没有经过记录整理、非正式传递的、直接作用于人的、非文献情报的总称.如私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报是指未经加工或加工程度等于零的原生情报.这种情报直接反映实际情况和科研成果,有如生产过程中原料。
固定原生情报的文献称原生文献,也称一次文献.如调查报告、研究报告、科学论文、专利说明书、会议文献、专著等.
二次情报是一种派生情报,是针对一次情报加工的产品.一二次情报的作用不仅在于报导,更重要的是为查找一次文献提供线索.刊载二次情报的文献称二次文献,二次文献按加工方式和深度又分为书目、索引、文摘等形式.其中文摘是一份文献内容缩短的精确的表达,它是二次情报的重要形式。
三次情报是在一、二次情报的基础上,经过分析研究和综合概括而编撰的情报。
刊载三次情报的文献称为三次文献,三次文献是情报研究的成果.其主要形式有综述、专题评论、年度总结、科研进展报告、数据手册、专业年鉴等.这种情报浓缩了所有的原生情报,可以节约大量阅读时间、减轻劳动强度、提高工作效率。
9.信息、知识和情报之间的关系:
知识是人的大脑通过思维重新集成整合的、反映事物运动规律的系统化信息,是信息中最有价值的部分;情报是具有特定传递对象的特定知识或有价值的信息,其中一部分在知识之内,另一部分则在知识之外的信息之内.因此,从逻辑上看,信息、知识、情报三者的概念之间是相容关系。
具体来说,信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。
10.信息资源的概念 ◆广义:
信息资源是指人类社会活动中积累起来的信息、信息生产者、信息技术等信息活动要素的集合。
◆狭义:
信息资源指人类社会经济活动中经过加工处理有序化并大量积累后的有用信息的集合。
11.信息资源的特征◆一般特征①作为生产要素的人类需求性②稀缺性③使用方向的可选择性◆特殊性①共享性②时效性
12.信息资源的类型:
根据载体的不同,信息资源可分为:
①体载信息资源②文献信息资源③实物信息资源④网络信息资源
13.信息检索的概念●广义:
信息检索包括信息存贮和信息检索两个过程,指将信息按一定方式收集、组织和存储起来,并根据信息用户的需求找出所需信息这一过程和技术,又称“信息存贮和检索(InformationStorageandRetrieval)”。
●狭义:
信息检索,不包括信息存贮过程,仅指依据一定的方法,从已经组织好的信息集合中,查找并获取特定需求的信息这一过程。
这里的信息集合,往往指关于文献或信息的线索,得到检索结果后一般还要通过检索命中的文献或信息线索索取原始文献或信息。
相当于信息查询(InformationSearch)
14.信息检索的类型:
●根据检索内容或检索对象不同,可分为:
①文献检索②数据检索③事实检索。
●根据组织方式的不同,可分为分:
①全文检索②超文本检索③超媒体检索。
●根据检索设备的不同,可分为:
①手工检索②机器检索
15.信息检索的发展趋势:
①统一的检索界面②主动的信息推送服务③多种检索模型将融为一体④可视化技术实用化⑤检索的智能化
16.检索的基本原理就是检索提问标识与存贮在检索系统中的标引标识进行比较,二者完全匹配或信息标引中的标识包含了检索提问中的标识,即为检索命中,具有该标识的信息就从检索系统中作为检索结果输出。
17.计算机检索的原理,计算机检索的实现过程,计算机检索如同手工检索一样,都分两个过程:
一是信息存贮,即按一定的规则将信息进行加工、赋予特征标识,并将这些标识按一定的顺序编排后纳入检索系统;一是信息检索,就是用户根据自己的检索要求向系统发出含有提问特征的检索式,系统自动地将自己存贮的相关信息集合的标引标识及其逻辑组配关系与之类比、匹配,给出特征标识相符的记录。
因此信息检索过程其实就是表示用户需求的字符串与系统内存贮的大量字符串进行类比、匹配和逻辑运算的过程。
18.计算机信息检索的实现条件:
①计算机②通信网络③检索终端设备④数据库
19.计算机信息检索的发展:
①脱机批处理检索阶段②联机检索阶段③光盘检索阶段④网络化检索阶段
20.计算机信息检索的服务方式:
①回溯检索(RetrospectiveSearching,RS)②定题检索(SelectiveDisseminationofInformation,SDI)③随机问答④联机订购
21.检索语言的概念:
检索语言一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献信息特征和检索课题内容特征的概念及其相互关系的一种概念标识系统,即在存贮时用以描述文献信息的内容和外部特征,而在检索时则用以表达提问的语言。
22.检索语言的类型:
◆按检索语言的规范化(或受控)程度来划分,可分为规范化的人语言和非规范化的自然语言;◆按检索语言的词汇组配方式来划分,可分为先组式语言和后组式语言;◆按描述文献信息内容特征来划分,可分为分类语言和主题词语言;◆按词汇的类型来划分,可分为关键词语言、单元词语言、标题词语言和叙词语言等等。
23.由人工采用规范词(Controlledterm)而创建的一种受情报检索控制的语言。
人工语言使用的控制、规范词是用来专指某个概念和网络、指示宽度适当的概念,供检索时选择。
它可以将同义词、近义词、多义词和缩略词等规范在一起,由人工控制,因此又称为控程语言。
24.自然语言(NaturalLanguage)检索用词是取其自然形态,从信息内容本身抽取,不受人工控制,主要依赖于计算机自动抽词技术来完成,但是需要辅以人工自由标引,即不依据词表的标引方法,使用非规范词(Uncontrolledterm)或称自由词(Freeterm)。
25.人工语言与自然语言的比较:
①人工语言与自然语言相比较,人工语言的查全率、查准率均比较高,因此,人工语言的检索效率要高于自然语言。
但是,①人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高,②对文献信息检索来说,用户不容易掌握。
而自然语言则不然,①对标引来说,主要由计算机检索系统自动完成,具有灵活性、新颖性和专指性,并且检索点多,管理和维护的成本低;②对文献信息检索来说,用户很容易掌握。
但是,①由于目前计算机的抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。
26.先组式语言和后组式语言:
先组式语言是指在检索实施前已事先组配好的一种检索语言。
用户只能用这种已经固定好的检索词组形式去完成检索,它有较好的直接性和专指性,但灵活度差。
例如,标题词语言就属于此类。
27.后组式语言是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言。
用户在检索时将它们临时组配起来,表达一定的概念,来完成信息检索。
这种后组方式提供了灵活的组配方式在计算机检索中得到了广泛的应用。
28.分类语言和主题语言:
分类语言属于人工语言,由人工创制并进行控制。
分类语言是按学科范畴和知识之间的相互关系列出类目,并用数字、英文字母对类目进行标识的一种检索语言。
它集中反映学科的系统性及学科与学科之间的相关、从属、派生等关系。
主题语言,又称为主题词语言或主题检索语言,大部分主题语属于人工语言,由人工创制并进行控制。
主题检索语言由主题词汇构成,也就是将自然语言中的名词术语经过规范化以后直接作为文献信息标识,按照英文字母排列信息标识,通过参照系统揭示主题概念之间的关系,因此也称为主题词表、主题词语言或主题法。
主题语言的类型:
◆关键词语言◆单元词语言◆标题词语言◆叙词语言.
29.检索系统的概念:
检索系统是为满足信息需求而建立的,具有收集、组织、存贮和查询等功能的文献信息资源和相关设备设施的总称。
30.检索系统的类型◆按加工手段和技术设备的不同,可将检索系统分为:
手工检索系统、机械检索系统、计算机检索系统。
◆按载体形式不同,可分为卡片式、书本式、缩微式、磁性材料式等检索系统。
◆按著录格式不同,可将检索系统分为目录、题录、索引、文摘、全文检索系统。
31.计算机信息检索系统的组成①信息选择子系统②标引子系统③建库子系统④词表管理子系统⑤用户接口子系统⑥提问处理子系统
32.数据库被定义为:
“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
”简单地说,它是某一范围的附有检索标识的记录的集合,即为满足特定需要而按一定方式和特定结构收集、加工、处理并存贮在计算机中的关联数据的集合,这些数据具有共同的存取方式,可以供多用户共同利用。
33.顺排文档、倒排文档①顺排文档(主文档)顺排文档是按一种重要字段顺序排列而成的数据库中全部记录的集合.②倒排文档,抽出顺排文档记录中的可检字段或其他特征标识,分别将包括该字段或标识的所有记录按某种顺序排列组织,并在每条记录后附上其存取号,所得到的文档就是倒排文档,它相当于手工检索工具中的索引部分,在文献数据库中也常被称为索引。
有多少个倒排文档就有多少个检索方式。
34.基本索引、辅助索引,基本系统中,可检字段(也称检索项)通常分为表示文献信息内容特征的基本索引字段和表示文献信息外部形式特征的辅助索引字段两大类.◇基本索引是反映内容特征的字段,如主题词、关键词、篇名等字◇辅助索引是反映文献信息外部特征字段的索引,辅助索引字段也称非主题字段,包括作者、刊名、出处、文献类型、语种、出版年份等
35.从数据库用户的角度看数据库的结构◆集中式数据库结构◆分布式数据库结构◆并行数据库结构◆异构数据库结构◆客户机/服务器结构◆浏览器/服务器结构
36.数据库的特点①结构化②所存储的数据是面向现实世界的③数据的共享性好、冗余度低④数据库中数据的独立性强⑤数据库由数据库管理系统统一管理和控制
37.数据库的类型◆按提供信息的等级来分,数据库可分为参考数据库和源数据库◆按存储数据类型的不同可分为文献数据库、数值数据库、事实数据库和图像数据库等◆按存储介质不同可分为磁带数据库、磁盘数据库和光盘数据库等◆按数据模型的不同分为层次型数据库、网状数据库和关系型数据库◆按涵盖学科内容的不同分为综合型数据库、专业型数据库。
38.文献数据库的功用:
①对文献信息的规范化管理②为用户提供了多途径的检索方式③为用户提供多种形式的服务内容④为用户提供了多渠道的检索服务
39.数据仓库技术,数据仓库不是简单的数据库产品,而是一种解决方案。
40.用于事务处理的数据库系统与用于决策分析的数据仓库系统的主要差别①事务处理与分析处理性质不同②数据集成问题③历史数据的使用
41.数据仓库的技术内容:
①数据仓库技术②联机分析处理技术③数据挖掘技术
42.信息检索的一般方法:
①常用法②引文追溯法③循环法
43.检索途径◆分类途径◆主题途径◆题名途径◆引文途径◆序号途径和符号代码途径◆全文关键词途径◆著者、机构途径◆其他途径
44.检索策略有广义和狭义之分。
从广义上看,检索策略是为实现检索目标而制订的全部检索计划,即在对课题进行全面、实质分析的基础上,选择检索系统、检索途径和检索词,明确各词之间的逻辑关系,并根据各检索词之间的关系和系统允许使用的各种算符、限定字段等组建检索式,确定检索步骤。
狭义的检索策略指检索提问式。
45.检索词就是简明、准确地概括检索要求的的词语。
检索词是表达用户信息需求和检索课题内容的的基本元素,也是计算机检索系统进行匹配的基本单元。
46.检索式,又称检索提问式,是检索策略的某种具体体现。
在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。
47.检索策略的制定:
制定检索策略时不仅要全面、准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求,另外还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索效果。
48.检索策略的调整:
从检索结果的数量上看,计算机信息检索经常会出现检索结果过少或过多的现象,这时应及时调整检索策略,扩大或缩小检索范围,以增加或减少命中结果,提高查全率或查准率。
要扩大检索范围,一般可通过扩大概念;增加同义词或同族相关词并运用逻辑或进行组配、减少检索词或少用逻辑与算符、减少位置算符的使用或有关的字段限制;扩大检索的年代、文献类型、文种范围等方法达到目的。
要达到缩小检索范围的目的,可以采取缩小检索概念;使用逻辑与等算符;缩小检索的年代、文献信息源范围等方法。
49.检索程序:
①全面分析课题,确定信息需求和检索目标;②选择检索系统,③确定检索途径和检索方法④确定检索词及检索词之间的关系,编制检索式⑤检索,并根据需要随时调整检索策略,得到所需检索结果⑥索取原始文献信息
50.原始文献的获取途径■直接通过网络获取原始文献①通过搜索引擎查找②网络出版物及网络出版物目录③出版商网站④学术网站⑤免费全文数据库⑥通过文摘、题录数据库提供的订购途径购买●间接获取原始文献:
先查到馆藏地点,再通过与该图书馆联系获取原文①查找馆藏地点②从实体图书馆获取原文●通过与个人及有关机构的交流获得
51.常用的布尔逻辑算符有三种:
逻辑或、逻辑与和逻辑非,逻辑“或”文字表示为“or”,用符号表示为“+”。
检索词A与B用or组配,提问式可写为:
AorB或者A+B,逻辑与,提问式可写为:
AandB或者A*B,逻辑非,提问式可写为:
AnotB或者A-B,表示检索结果中每条记录必须包含检索词A,但不包含检索词B,运算符的优先次序是:
NOT﹥AND﹥OR
52.优先处理算符用括号()表示,功能是括号中的内容优先运算。
53.位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率。
常见的有:
54.W算符(With)通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(往往包括系统禁用词),同时A、B保持前后顺序不变。
55.N算符(Near)通常写作A(nN)B,表示A与B之间至多可以插入n个其他的词,同时A、B不必保持前后顺序。
如control(1n)system,除可得到controlsystem、controlofsystem等外,还可得到systemofcontrol等结果。
56.S算符(Subfield)通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意个词。
例如用computer(s)design检索,可得到:
computerdesign、computeraideddesign等结果。
57.F算符(Field),通常写作A(F)B,表示A、B必须同时出现在记录的同一字段中,如出现在篇名字段中,两词次序、A与B间加词个数不限。
例如:
digital(F)library/TI,AB,表示两词同时出现在题名和文摘字段中的均为命中文献。
58.C算符(Citation),通常写作A(C)B,表示A、B必须同时出现在同一记录中,不限定词序和字段。
其作用同布尔逻辑算符“AND”。
59.截词(截断)检索,截词检索主要是利用检索词的词干或不完整的词形进行非精确匹配检索,凡含有词的这一部分的所有字符或字符串的文献信息,均被认为是命中结果。
截词方法可单独使用,也可与其他方法配合使用。
60.截词可分为以下几种形式:
●无限截词●有限截词●中间屏蔽
61.后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。
例如:
hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。
hypertensi?
?
可查到hypertension、ypertensive。
62.前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字符串的检索。
例如:
*sighted,可查到farsighted与nearsighted。
前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。
63.中截断将截词符号放在一个检索词的中间的一种截词方式。
只允许有限截断,用于检索词的单复数或英美式不同拚法。
例如:
wom?
n,可查到Woman,Women。
defen?
e,可查到defense,defence。
64.字段限制检索,字段限制检索,或称检域限制,也是用于指定检索词出现位置的一种检索方法,可对主要检索途径以及年代、文献信息来源等可检字段作限制。
如JN=(限查来源期刊名)、LA=(限查文献语种)、PY=(限查年代)等。
65.禁用词都是些无实际检索意义的词,也就是不可用于检索的过于常见的词(高频词),这些词不仅不能缩小检索范围,而且会大大降低搜索速度。
66.光盘数据库检索,与联机检索相比,光盘检索的特点:
①光盘数据库成本较低,配置简单。
②购买光盘是一次性投入,使用时间不受限制。
③光盘检索系统是一个独立的系统,不受通讯费和机时费的限制。
④检索方便快捷,操作简单易学。
67.为什么光盘数据库并没有完全被后来的网络数据库所代替?
①成本低,投入较少。
②运行速度快③安全性好④一次性投入
68.联机检索系统是以大型计算机和大容量存贮设备为基础,以公共数据交换网或电话通讯线路为传输媒介,建立起来的大型计算机检索系统。
69.联机检索,是指在检索终端上,通过通讯线路,以人机对话方式,使用一定的指令和算符,与检索中心的中央计算机联机,从该检索系统的数据库中检索所需信息的一种计算机检索模式,这种检索模式扩大了信息共享的范围,凡通讯线路延伸到的地方都能进行异地联机检索。
70.联机检索的特点:
①数据库资源丰富②检索速度快、效率高,输出方式和格式多种多样③提供的文献信息全面、准确、可靠、及时④安全⑤费用较高
71.联机检索程序:
①分析课题,明确检索目的;②确定检索词和检索策略,联机前可进行人工预检;③接通联机检索系统;④选择数据库;⑤输入检索式,检索;⑥分析联机显示的检索结果(可以是部分结果),判断检索是否已经成功。
若结果不令人满意,则调整检索式,重新检索;⑦选择输出格式和输出方式,输出检索结果。
72.DIALOG系统是目前世界上规模最大的综合性商业联机信息检索系统之一,现有全文、题录、事实及数据型数据库近1000个。
专业内容覆盖自然科学、社会科学、工程技术、人文科学、时事报道及商业经济等各个领域.
73.DIALOG系统的特征◆庞大的数据库体系◆优良的服务网络◆丰富的服务方式◆先进的发展策略①技术先行策略②用户第一策略③灵活收费策略
74.DIALOG检索操作,DIALOG系统的基本检索模式主要有三种:
●命令检索●Web化检索
●菜单式检索(MenuSearch)检索指令:
(1)进库指令Begin(B)
(2)选词指令Select(S)(3)分步检索指令SelectSteps(SS)(4)逻辑组配指令Combine(C)(5)去重指令RemoveDuplicates(RD)
75.检索结果的处理指令:
(1)联机打印指令Type(T)
(2)脱机打印指令Print(PR)
(3)屏幕显示指令Display(D)成检索,退出系统结束指令:
(1)End指令
(2)LogoffHold指令(3)Logoff指令
76.DIALOG系统的重要数据库
①工程索引
②科学文摘
③世界专利索引
④化学文摘
⑤科学引文索引
⑥经济商业文摘
⑦学位论文文摘
⑧美国政府技术报告
⑨医学索引
⑩生物技术和生物工程数据库
⑾国际药学文摘
77.STN系统,际科技信息网络,简称STN系统,包括200多个科学技术数据,涉及化学、工程、生命科学、生物技术、专利、数学、物理、商业等各基础学科领域和综合技术应用领域
78.STN系统的特点①收录范围广②更新速度快③检索速度与跨文档检索
79.STN有三种检索入口◆STNontheweb(网址为:
http:
//stnweb.fiz-karlsruhe.de/)◆STNEasy(网址:
http:
//stneasy.fizkarlsruhe.de/html/english/login1.html)◆STNClassic:
传统的联机方式
80.STN的三个服务中心
a)北美服务中心:
美国化学文摘社(CAS)http:
//www.cas.org
b)欧洲服务中心:
德国卡尔斯鲁厄专业情报中心(FIZ-Karlsruhe)http:
//www.fiz-karlsruhe.de
c)亚洲服务中心:
日本科技厅(JST)http:
//www.jst.go.jp
81.检索效果是利用检索系统进行信息检索所产生的有效结果,它直接反映检索系统的性能和本次检索的成败。
82.衡量检索效果的指标:
根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要应从质量、费用和时间三方面来衡量。
主要指标:
查全率、查准率、误检率、漏检率、
83. 检出的相关信息数
查全率=──────────×100%
信息库中相关信息总数
84.查准率(PrecisionRatio):
检出的相关信息数
查准率=──────────×100%
检出的信息总数
85.误检率(NoiseRatio)
检出的非相关信息数
检率=──────────×100%
检出的信息总数
86.漏检率(OmissionRatio)
未检出的相关信息数
漏检率=──────────×100%
信息库中相关信息总数
87.国际计算机互联网络,是采用TCP/IP协议连接起来的全球所有计算机及其网络的统称,它是全世界最大的、开放式的、由大量计算机通过路由器和通信线路相互连接而成的计算机网络,为实现最大范围的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索 安徽省 图书资料 系列 职称 考试 信息 检索 重点