信息检索复习大纲Word文档格式.docx
- 文档编号:18245051
- 上传时间:2022-12-14
- 格式:DOCX
- 页数:10
- 大小:24.19KB
信息检索复习大纲Word文档格式.docx
《信息检索复习大纲Word文档格式.docx》由会员分享,可在线阅读,更多相关《信息检索复习大纲Word文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
信息检索的基本原理:
为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。
用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。
2、信息存储与检索的历程
信息存储与检索走过了文献检索、情报检索的历程,并且正在向着知识检索的领域迈进:
文献检索就是一个从文献集合中查找出特定文献的活动、方法与程序,并指明“文献集合”即为经过加工的“众多文献”。
情报检索是一种时间性通信形式,是“发生在当代人之间或当代人与前人和后人之间思想、文化和科学信息的交流,它是实现情报传递的重要环节,它本身就意味着人类的通信。
信息是人类社会和自然界所有物质的一种普遍属性,其概念外延十分宽广。
知识是通过大脑思维重新组合和系统化的信息。
一般认为,“情报”是传递中的知识,文献则是指记录在一定物质载体上的知识。
3、信息检索通常包括的四种类型
●从信息需求与查询结果看,信息检索通常包括四种类型:
✧关于文献的检索
✧关于某事实或事项的知识检索
✧关于数值或数据的情报检索
✧关于图像信息的信息检索
4、索引的概念
索引(Index)是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式。
索引的基本功能是指示知识点在正文或文献款目中的位置。
传统的文本式检索工具通常由两部分组成,即文摘正文部分和辅助索引部分。
5、索引的款目结构中,例如
未来的地球人①/王佃亮②31③
①②③分别代表什么
①索引标题词(题名)②文献作者③地址参照项(所在页码)
6、引文索引的概念
引文索引是近30年来出现的一种新型的索引形式。
其特点是,把一系列具有引用与被引用关系的科学文献以多向线性的方式联系起来,提供一个以引证关系为依据来检索文献的新途径。
引文索引的主要职能是,回答某作者的论文曾经被哪些人的文章所引证,这些文章何时发表在何种刊物上。
第3/4章信息存取途径与检索策略
1、布尔逻辑算符
用户利用逻辑算符构造检索式,可将一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。
系统中采用的逻辑组配算符是布尔代数中的逻辑运算符AND、OR、NOT,故简称为布尔逻辑组配算符。
这三种算符表示不同的逻辑关系,在构建提问检索式时必须正确选择使用。
✧逻辑“与”——AND或*
✧逻辑“或”——OR或+
✧逻辑“非”—NOT或-
✧布尔逻辑算符的优先执行顺序为NOT、AND、OR。
✧由布尔逻辑算符连接而成的检索式称为逻辑检索。
2、位置逻辑算符
由于布尔逻辑算符不能限定检索词在检索记录中的位置关系,因此其检索结果常常不能满足精确检索的需要。
为了弥补逻辑算符准确表达提问要求的缺陷,提高检索效率避免误检,特规定了一些位置算符。
也就是当使用文献记录中的自由词作为检索词进行检索时,词与词之间的逻辑关系则用位置算符组配。
位置算符主要用于全文数据库查询。
位置算符不仅可用来组配带有前缀或后缀的检索词,也可用来组配带有逻辑算符的检索式。
常用的位置算符有下列几种
①(W)或()—with
②(nw)表示在此算符两侧的检索词之间允许插入n个实词或虚词,两个检索词的词序不允许颠倒。
③(N)—“Near”由(N)连接的检索词在记录中出现的顺序可以调换,但必须彼此相邻。
④(nN)表示算符两侧的检索词(或称检索项)之间允许插入n个词,且两检索项的位置可以调换。
⑤(F)—Field表示算符两侧的检索词,必须同时出现在文献记录的同一字段中,如同一文摘或同一标题字段,同一题名字段等,此文便为命中,算符两侧检索词词序不变,夹在其间的其它词数量也不限。
⑥(S)—Subfield表示算符两侧的检索词必须同时出现在文献记录的相同子字段内,其检索词的顺序不限、夹在其间的词汇数量也不限,子字段通常由数据库确定。
⑦(L)—Link(L)算符通常用来表示算符两侧的检索词是从属关系,前者为上位概念,后者为下位概念;
或算符左侧为主叙词,右侧为副叙词。
⑧(C)—CITATION表示算符两侧的检索词可以不分字段、不按顺序,只要同时出现在一篇文献记录中即为命中,其作用和效果与逻辑算符“and”相同。
⑨(X)和(nX)(X)算符表示两个相邻且又词形相同的检索词作为词组进行检索,其间只能是“—”号而不得有其它的字母或词,
✧(nX)表示两个词形相同的检索词,其间夹有n-1个其它词时,可作为词组进行检索。
⑩在位置算符的前面加上NOT即可构成位置算符的逻辑(非)
3、信息检索一般方法
信息检索的方式是指根据检索课题的需要与检索系统的现状灵活选定的。
一般的查询方法可划分为以下几种:
1.工具法:
又称一般查找法,即利用各类存取系统(工具)包括书本式与电子文本式,直接检索信息的方法,主要包括顺查法、逆查法、抽查法。
2.追溯法:
利用文献后所附参考文献,逐一追查被引用文献,然后,再从被引用文献所附参考文献目录逐一扩大检索范围,依据文献引用与被引用之间的关系获得内容相关的诸多文献,这是一种扩大信息来源最简捷的方法。
3.综合法:
亦称循环法或分段法,它是指分期分段交替使用上述各种检索法以达到优势互补、获得理想结果的一种检索法。
4、信息检索步骤
分析检索课题,明确检索需求、制定检索策略(主题分析)
选择检索系统与数据库、确定检索词和检索途径,编制逻辑检索式
检索策略的调整
第5章联机存取系统
1、联机存取系统概述
联机存取系统由用户检索终端、通信网络、联机存取中心三部分组成。
其中检索终端设备用于输入检索程序、显示检索过程、控制打印机打印检索结果;
联机存取中心是存储和检索信息的核心;
通信网络主要用来连接用户终端和联机存取中心,以实现远程人机对话的目的。
2、联机存取系统国内外概况
国外联机存取系统
●Dialog系统:
目前世界上规模最大、检索功能最完善、用户终端最多的联机存取系统。
由美国洛克希德导弹航空公司下属的一个情报科学实验室始建于1966年,总部设在加里福尼亚州的PALOALTO市,1972年开始向用户提供服务。
●STN系统:
是TheScientificandTechnicalInformationNetwork-Retrieve(国际科技信息网络)。
STN系统创建于1983年,是由美国化学文摘社CAS、德国卡尔斯鲁厄专业信息中心FIZ-Karlsruhe和日本科技信息中心JICST共同合作经营的跨国数据库存取系统,也是世界著名的国际联机信息存取系统之一,1986年开始向用户提供全面服务。
●OCLCFirstSearch(OnlineComputerLibraryCenter):
即联机计算机图书馆中心。
OCLC创建于1967年,是世界上最大的文献信息服务机构之一。
其总部设在美国的俄亥俄州,它主要通过Internet远程通讯网向成员馆及其它组织提供各种处理过程、产品和参考服务。
国内联机存取系统
1、万方数据资源统一服务系统:
主要业务是以数据库建设为核心内容的信息资源建设和服务。
该系统提供108个数据库的网上检索,包括期刊论文、专业文献、会议论文、学位论文、科技成果、专利数据、公司及企业、产品信息、标准、法律法规、科技名录、高等院校信息、公共信息等各类数据资源。
2、CNKI数据资源系统:
中国知识基础设施工程是1999年6月正式开通的联机网络存取系统,由清华大学光盘国家工程研究中心(OpticalMemoryNationalEngineeringResearchCenter)开发,以中国期刊网为其主要形式。
中国期刊网是目前国内最大的网上期刊信息资源存取系统。
不仅实现了国内期刊信息资源的网络化,而且有全新的目标定位:
主要以中外文期刊、博士硕士论文、学术会议论文、专著、专利、科学报告等文献为基本资源。
3、维普数据资讯系统:
是国内目前数据量最大的综合性文献型数据库资源系统。
主要报导自然科学领域及部分社会科学(经济、文化、高等教育、图书情报等)领域的中文期刊文献,收录期刊5400余种(含港、台核心期刊)。
3、联机数据库分类及概念
联机数据库通常储存在磁带、磁盘或光盘等计算机随机存取设备上,一般由专门的数据库供应商(即数据库的提供者和出版商)提供。
数据库供应商承担收集、编辑、出版,并将之制作成机读形式提供给联机存取服务公司。
按照数据库所含信息记录的内容结构划分,可将联机数据库分为两大类:
文献参考型数据库和源数据库。
源数据库存储用户作为检索目的而要求获取的数据、事实或文字等一次信息。
而文献参考型数据库是在原始文献的基础上加工整理而成的,著录项一般包括有原始参考文献的出处和相关信息,主要有书目型、文摘型、索引型数据库等。
联机存取系统主要提供追溯检索、定题服务、联机订购原文、电子邮件以及数据库光盘等传统服务,同时各个联机存取系统也都推出了自己的特色服务,如FirstSearch的一体化服务(包括整合检索、全文库标识等)、Dialog公司的跨文档检索和分级别检索以及万方数据公司的数字化期刊、咨询服务等等。
第6章Internet网络信息存取
1、搜索引擎的构成
搜索引擎的基本结构如图所示。
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
用户接口
2、搜索引擎基本原理
用户检索策略
3、网络信息检索工具的功能(含基本检索功能和高级检索功能)
基本检索功能
布尔逻辑检索、字符串检索、截词检索、字段限制检索、位置检索
高级检索功能
自然语言检索、模糊检索、概念检索
区分大小写的检索、管道检索、相关信息反馈检索
4、多个Internet网络存取系统的概念
5、联机信息检索和网络信息检索各自的优缺点。
●联机信息检索与网络信息检索的相似之处
检索实质相同、逻辑组织大体相同、提供检索的逻辑组配手段相似、检索入口相同
●联机信息检索与网络信息检索的差异
标引所依据的语言不同、系统界面设计不同、信息组织方式不同
●联机信息检索系统具有以下几个方面的优势:
联机存取系统在信息数量上的优势
联机存取系统在信息质量上的优势
联机存取系统在检索效率上的优势
●联机信息检索系统的缺点主要表现在以下几点:
联机信息检索费用昂贵
联机信息检索需要一定的检索技巧
●基于Internet的网络信息检索的优势主要表现在以下几点:
(1)检索费用低
(2)用户界面友好
(3)信息内容和形式新颖多样、原文可获取性高
网络信息检索的缺陷具体表现在:
网络上免费提供的信息,其质量、时效性和可靠性还不能得到充分的保证,所以,信息质量和检索时间不可预测。
另外,由于缺乏必要的管理和法律制约,Internet上的信息资源开发与服务还存在着各种问题,如网络安全、有害与违法信息的传播、版权保护、信息资源的管理和组织、网络信息检索的检索效率低等问题。
这些问题使得用户在节省信息检索费用的同时,增加了用户检索、利用信息的时间成本。
6、网络信息检索策略与技巧
策略:
明确搜索目标,确定检索项、选定适合的检索工具、正确对待检索结果、提高上网速度,选择最佳上网时间
技巧:
扩大检索范围、缩小检索范围、Ctrl+F、给检索结果作标签、右切断UR、猜测站点的URL
第7章各类文献信息参考源
1、各类文献信息参考源的分类
图书文献检索包括图书文本的检索和电子图书的检索。
图书检索
图书检索,即书目检索,可分为手工书目检索和计算机书目检索。
前者包括国家书目、收藏目录、专题目录等;
后者主要指联机目录、网上书店目录检索等。
电子图书是电子出版物的一种,是通过网络进行传播,并在计算机上进行阅读和使用的文献形式。
2、中/外文图书检索工具的基本了解
国内电子图书网站
(1)超星数字图书馆
超星首页提供分类浏览(如图7-9所示),用户可以按类浏览直到找到相关图书,并进行阅读;
字段检索提供书名、作者、索书号、出版日期4个可检索字段,在检索框内输入相应的检索词,就能直接查询到相关图书,单击书名,即可阅读。
(2)书生网
由北京书生公司建设和运营,主要收录1999年至今的图书、期刊、报纸、论文、CD等各种载体资源,入网出版社约500多家,以中国内地出版的新书为主,内容涉及社会科学、人文科学、自然科学和工程技术等类别。
其字段检索页面如图7-10所示
幻剑书盟
幻剑书盟创办于2001年5月,由书情小筑、石头书城、小书亭等文学书站合并而成。
目前页面访问量多达每天1000万~1200万人次,注册会员40多万人,已经成为国内最大的原创文学站点之一。
该网站收录的内容以武侠和玄幻文学作品为主,驻站原创作家约4000多名,收藏作品4000多部,其中有几十本图书点阅数超过100万人次。
(4)中国青少年新世纪读书网
该网站是根据共青团中央等九部委提出的中国青少年新世纪读书计划而创办的,是共青团组织在青年中“大兴勤奋学习之风,培养一代高素质人才”的重要渠道,能够为青年提供一个网上导读、学习、交流、购书的信息平台,以便在新形势下更好地服务团员青少年。
国外电子图书网站
(1)NetLibrary
NetLibrary始建于1998年,2002年1月被OCLC收购,该网站收录了全球312家出版社近5万种高质量的电子图书,每年增加新书上万种。
页面显示包括英语、西班牙语、中文繁体、中文简体、韩语、日语、阿拉伯语7种语言,设有简单检索和高级检索。
用户需首先从拥有使用权限的图书馆网站进入,然后就能检索和阅览所有电子书的全文
2)EBOnline
EB在线首页(如图7-13)设有多种分类浏览和简单检索,用户可以按照字母、主题、世界地图、年度、时间等多个途径浏览其内容,也可通过网页上部关键词检索进行查找。
如果想进行更加复杂的查找,可以点击首页高级检索链接,转入高级检索界面。
3、科技期刊的概念
期刊是指拥有固定名称、统一版式和连续的卷、期号或年月标识的定期或不定期的连续出版物,每期刊载两篇以上学术论文。
4、科技报告的概念
科技报告是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果及进展情况的报告。
5、专利文献的概念
专利文献是一种集技术、法律和经济情报于一体的实用文献,在人类技术进步和社会经济发展历程中,一直起着十分重要的作用,长期以来人们通过手工检索,光盘检索和联机检索获取各种专利信息。
网络技术的发展为专利的检索开辟了新的途径。
广义的专利文献包括专利申请说明书,专利公报和专利分类表等。
从狭义上说,专利文献指的是申请说明书和专利说明书。
第9章事实和数据信息检索
1、事实和数据信息检索概述
●事实和数据信息存取是信息存储与检索的重要组成部分,其原理、技术和方法均同于文献信息存取,所不同的仅在于其存取对象和检索结果既不是文献线索,也不是文献全文或文献部分,而是具体的某一事项。
2、辞书与百科全书的概念
辞书
●这是汇集词语及事物名称,并以字或词立目,加以注音和解释文字,按一定的方式编排起来,供人们查考的一类工具书。
百科全书(Encyclopedia)
●Encyclopedia(百科全书)一词来源于希腊文enkylios和paideia,其组合含义是包罗万象的知识。
因此可以说百科全书是汇总、浓缩人类所有知识门类或某一知识门类全部知识的大型参考工具书。
3、年鉴、手册等参考工具的概念
1.年鉴是按年度系统汇集一年内重要事件、学科进展及各项统计资料,以供用户查阅利用的参考工具。
2.年鉴的主要作用是:
检索一年中的大事要闻,了解各学科、部门的发展动态,查询有关学科的新知识新成果、查询统计数字和资料等。
3.手册是汇集某一范围或某专科领域基本资料,以方便读者随时参考利用的工具书。
手册和年鉴一样都属于信息密集、叙述简明、编排合理、检索方便的便捷参考工具(ready-referencebooks)。
手册有时也称为大全、便览、须知、指南等。
●其基本特点是:
收录资料的主题明确而具体、内容丰富而实用、携带方便、便于查考使用,其内容包括各类公式、数据、术语、规格、方法和图表等。
一般对条目不作理论或历史性阐述。
资料不受时间限制,但必须准确且具权威。
叙述简明扼要、全面概括。
条目大都按类编排。
第10章国外综合性信息存取系统及其检索
1、工程索引
工程索引(EI)是由美国工程信息公司(EngineeringinformationInc.)编辑出版,历史上最悠久的一部大型综合性检索工具。
EI在全球的学术界、工程界、信息界中享有盛誉,是科技界共同认可的重要检索工具。
2、科学引文索引结构
印刷版SCI结构有三个部分组成:
引证索引、来源索引、轮排索引
网络版索引结构:
科学引文索引、社会科学引文索引、艺术与人文科学引文索引
第11章国内外检索刊物和联机数据库
1、引文索引数据库的相关知识
2、CSCD等四个引文索引数据库简介
3、中国主要网络信息系统的简要信息
第12章科技论文组成
1题名(篇名)
2著者
3摘要
4关键词
5文章的章节的编号
6引言
7正文
8结论
9基金项目的注明
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 复习 大纲