07级讲义第一章《情报检索》的基本内容.docx
- 文档编号:29370882
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:28
- 大小:761.01KB
07级讲义第一章《情报检索》的基本内容.docx
《07级讲义第一章《情报检索》的基本内容.docx》由会员分享,可在线阅读,更多相关《07级讲义第一章《情报检索》的基本内容.docx(28页珍藏版)》请在冰豆网上搜索。
07级讲义第一章《情报检索》的基本内容
第一章《情报检索》的基本内容
第一节基本概论
第二节情报检索语言
第三节计算机文献检索
引言
当今社会已进入信息化时代。
在这一时代里,情报(信息)已经成为个人、社会群体和整个社会发展的极其重的资源,人们需要依赖情报(信息)而生存发展。
特别是在科学研究中,无论是一个课题的选题、设计、实验,还是成果鉴定,每一步都离不开情报(信息)。
有资料表明:
科研工作者在科研的过程中要用80%的时间来获取情报(信息),而只用20%的时间来加工和产生新的成果。
因为只有通过情报(信息)的查阅,才能明确研究的可行性,并把自己的研究工作建立在一个较高的起点上。
相反,如果在科研中,不重视情报(信息)的查阅,没有做好继承和借鉴工作,则容易重复研究,浪费大量的人力、物力和财力。
据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。
日本有关化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。
在信息社会,由于海量的数字资源和“信息爆炸”的网络,极大地拓宽了人们获取情报(信息)的空间,但同时也给人们检索和利用情报(信息)带来了新的问题和矛盾。
首先是数字资源总量的巨增与个人情报(信息)获取能力有限之间的矛盾,例如以WWW方式提供的数字资源平均每过53天就翻一翻,全球现已有超过30亿网页及2000万个网站,于是数字资源总量的巨增与个人情报(信息)获取能力有限之间的矛盾便越来越突出;其次是数字资源生产、发布的任意性、自由性与情报(信息)质量无保证之间的矛盾,影响了人们对数字资源的获取和情报(信息)质量的评估;再次是数字资源种类的多样性与人们情报(信息)检索能力之间的矛盾,文本、数据、图形、图像、音频和视频等多媒体和动态形式的情报(信息)均由功能强大的计算机软件系统来组织和管理,检索这类情报(信息)也需要一定的技能。
这些矛盾的客观存在阻碍了数字资源的传播、交流和利用,影响了获取信息的效率。
因此,网络环境下数字资源的检索与利用就成为迫切需要解决的问题。
本课程的目的在于通过对网络数据库极其检索方法与途径的介绍,解决人们在网络环境下查找情报(信息)所面临的一系列问题,提高学生对数字资源的检索、选择、吸收、整理和重组情报(信息)的能力。
第一节基本概论
1.1情报检索基本概念
1.情报(信息)定义:
对使用者有一定实用价值的知识的有效传递。
2.情报检索:
“情报检索”一词源于英文“informationretrieval”,是指将情报(信息)内容按一定的方式组织和存储起来,并根据用户的需求找出所需情报过程。
3.情报检索类型
文献检索----以与情报提问相关的文献作为检索对象的称为文献检索。
这种检索直接获得的结果,一般是文献及文献线索。
例如:
检索“量子保密通信安全度的分析模型”课题的中文资料,或者是文献名称、著者、内容简介、文献出处等,要经过反复筛选才可利用。
数据检索----凡是以能直接回答情报提问的科学数据为检索对象的称为数据检索。
它通过检索得到的直接结果是数值性数据,包括:
实验数据、技术参数、常数、系数、计算公式、化合物分子式、化学结构式、统计数据、曲线、产品、及市场定量数据等等。
事实检索----凡是以直接回答情报提问的事实为检索对象的称为事实检索。
检索所得的直接结果为描述某一事物发生、发展、存在的过程、状态、时间或地点、性质、定义、原理说明,但必须经过分析、比较、综合处理才能得出准确答案。
如:
“某公司的谈判代表的背景情况及信用程度”即属于事实检索。
1.2科技文献基本概念和类型识别
1.科技文献的基本概念:
负载着科技知识的物质载体
2.科技文献的类型
(1)按载体形式分:
印刷型----它是以纸张为载体,通过铅印、胶印、油印等手段形成的文献。
缩微型----它是以印刷型文献为母体,采用光学摄影技术,将文献的体积缩小固化到感光材料或其它载体上。
例如:
缩微平片、缩微胶卷等。
机读型----它是使用计算机进行存储和阅读的一种文献。
例如:
磁盘数据库、磁带数据库。
其特点是便于消去和更新,一次输入可以多次使用,便于传递、存储容量大、存取速度快,易于实现资源共享。
声像型----它又叫视听资料。
是以磁性材料或感光材料为载体,借助特殊的机械装置直接记录声音信息和图象信息而产生的一种文献。
例如:
唱片、录音带、声像带、光碟等。
(2)按文献出版形式分:
科技图书----包括专著、丛书、参考工具书、教科书等等。
科技期刊----它具有数量大、品种多、内容丰富多样,它出版周期短、刊载速度快、内容新、发行面广、能及时反映当前的科技发展水平、定期连续出版,科研工作中大约70%的情报来自期刊。
期刊又分核心期刊和一般期刊,核心期刊有中文核心期刊、国外人文社会科学核心期刊和国外科学技术核心期刊,分别通过《中文核心期刊要目总览》、《国外人文社会科学核心期刊总览》以及《国外科学技术核心期刊总览》来查询。
《中文核心期刊要目总览》2004年印刷版(即第四版)
该书已于1992、1996、2000年出版过三版,在社会上引起了较大反响,图书情报界、学术界、出版界和科研管理部门对该项研究成果都给予了较高评价,普遍认为它适应了社会需要,为国内外图书情报部门对中文学术期刊的评估和选购提供了参考依据,促进了中文期刊编辑和出版质量的提高,已成为具有一定权威性的参考工具书。
本版核心期刊定量评价,采用了被索量、被摘量、被引量、它引量、被摘率、影响因子、获国家奖或被国内外重要检索工具收录等7个评价指标,选作评价指标统计源的数据库达51种,统计文献量达到943万余篇次(1999至2001年),涉及期刊1万2千种。
本版还加大了专家评审力度,1873位学科专家参加了核心期刊评审工作。
经过定量评价和定性评审,从我国正在出版的中文期刊中评选出1800种核心期刊,分属七大编75个学科类目。
该书由各学科核心期刊表、核心期刊简介、专业期刊一览表等几部分组成,不仅可以查询学科核心期刊,还可以检索正在出版的学科专业期刊,是图书情报、新闻出版、科研成果管理等部门和期刊读者的不可或缺的参考工具书。
《国外人文社会科学核心期刊总览》2004年印刷版(即第三版)
该书已于1996、2000年出版过两版,新版对核心期刊评价方法进行了改进,增加了定量评价指标,加大了专家定性评审力度。
本版采用了被摘量、被引量、影响因子、流通量、被重要检索工具收录等5个评价指标,选用了17个统计源数据库,统计文献量达4486355篇次(1999至2001年),涉及期刊12722种。
经过定量评价和定性评审,从正在出版的数万种文科外文期刊中评选出1400种核心期刊,分属13个学科。
该书由学科核心期刊表和核心期刊简介组成,是我国系统介绍国外文科核心期刊的重要参考工具书,可供我国图书情报部门外刊采访及读者阅读外文期刊和投稿时参考。
《国外科学技术核心期刊总览》2004年印刷版(即第二版)
该书已出版过2003年版(第一版,1995至1997年统计数据,南京大学图书馆等单位编辑),新版国外科学技术核心期刊在研究方法上进行了改进,增加了学科类目(涵盖全部科学技术学科)。
具体方法同《国外人文社会科学核心期刊总览》2004年版。
5个评价指标选用了39个统计源数据库,统计文献量达59310376篇次(1999至2001年),涉及期刊21974种。
经过定量评价和定性评审,从正在出版的数万种科学技术外文期刊中评选出2500种核心期刊,分属40个学科类目。
该书由学科核心期刊表和核心期刊简介组成,是我国系统介绍国外科学技术核心期刊的重要参考工具书,可供我国图书情报部门外刊采访及读者阅读外文期刊和投稿时参考。
另外,还有我校自己指定的权威期刊,它是我校评定职称认定的“权威期刊”,其目录见
期刊还分现刊、过刊和特刊,当年出版的期刊称现刊,上一年往前回溯的期刊称过刊,特刊是指检索刊,即文摘、索引。
科技报告----这是研究成果的正式报告,或是研究过程中的阶段进展报告。
内容较专深,包括研究方案的选择与比较,原始实验记录,富有大量的数据和图表。
例如:
美国政府的四大报告(NASA报告、DOE报告、PB报告、AD报告),它们分别是美国国家航空和宇航局、美国能源部、美国商务出版局、美国军事技术情报局的科研报告。
NASA报告资料主要来源于美国国家宇航局所属的各研究中心、试验室、合同公司企业以及大学研究所,包括一些国外研究机构。
报告内容侧重于航空和空间技术领域,同时也广泛涉及许多基础学科和技术学科,如物理、化学、机械仪表、电子、材料等。
DOE报告资料主要来源于能源部直属机构及合同户,内容主要为原子能及其应用方面,但也涉及到其他各门学科。
PB报告资料主要来源于美国国内各研究机构的技术报告,内容逐步侧重于工农业生产和民用工程方面。
AD报告资料主要来源于美国国防部所属的陆海空三军的科研单位、公司、大专院校和外国研究机构及国际组织,其内容不仅包括军事方面,也广泛涉及许多技术领域,如航空航天、地球、物理、材料工程技术等。
AD报告从1975年1月有了加密级别:
AD——A非密公开
AD——B非密限制
AD——C保密
AD——D美军专利文献
AD——E计算机编目时暂时使用的试验号码
专利文献----主要指专利说明书。
它是专利申请人向政府递送的说明其发明创造的文件。
会议文献----所谓会议文献是指各类科技会议的资料和出版物,包括会议前参加会议者预先提交的论文文摘、在会议上宣读或散发的论文、会上讨论的问题、交流的经验和情况等经整理编辑加工而成的正式出版物。
广义的会议文献包括会议论文、会议期间的有关文件、讨论稿、报告、征求意见稿等,而狭义的会议文献仅指会议录上发表的文献。
会议文献的特点:
传递新产生的但未必成熟的科研信息,对学科领域中最新发现、新成果等重大事件的首次报道率最高,是人们及时了解有关学科领域发展状况的重要渠道。
涉及的专业内容集中、针对性强。
围绕同一会议主题撰写相关的研究论文。
内容新颖,即时性强。
最能反应各个学科领域现阶段研究的新水平、新进展。
数量庞大,出版不规则。
出版形式多种多样。
会议录、期刊、科技报告、预印本等。
检索会议文献的重要性:
许多创新的想法、概念和理论往往在各种会议中首先出现。
许多科研人员依赖于会议交流信息。
由于其出版的不规则,会议文献的检索与获取比较困难。
政府科技文献----是各国政府及其所属部门或专门机构发表、出版的文献,其中科技文献约占30—40%。
它可供我们了解科学技术方针、政策、事件、政府资助方面的动向。
学位论文----这是高等学校博士和硕士研究生或本科毕业生撰写的评定学位的论文,有一定的学术参考价值。
标准文献----主要是对工农业产品及工程建设的质量、规格及其检验方面所做的技术规定。
产品样本----它是对定型产品的性能、构造、用途、使用方法及产品规格所作的说明。
由于它代表已投产的产品,在技术上较为成熟,数据较为可靠。
技术档案----它是生产建设部门和科技部门在技术活动中形成的、有一定的工程对象的技术文件。
它对以后从事相近或相似的专业的研究活动,有直接的参考价值。
科技报告、专利文献、会议文献、学位论文、标准文献等非书非刊文献也称特种文献,它们的发行渠道特殊,形式各异,具有其它文献所不能取代的特殊价值,能及时反映国内外科技发展的最新水平和未来发展趋势。
因此,它是科技工作者常用的信息资源。
(3)按文献加工级别分:
一次文献----这是科技工作者根据研究或研制的成果,在研究、创造过程中或末尾时撰写的文献。
主要包括期刊论文、专利说明书、会议论文、科技报告、以及学位论文等。
还包括一些不公开出版的文献,例如:
实验记录、日记、备忘录、手稿、内部报告、技术档案、信件等。
二次文献----二次文献是文献工作者对一次文献进行加工整理后的创作产品,诸如各种书目、索引、文摘、题录、简介等,二次文献具有检索与通报一次文献的双重功能,它的主要作用在于,系统反映一次文献信息,帮助读者用很少的时间浏览较多的文献信息,提供检索所需要的文献线索。
三次文献----三次文献是对一次文献的内容进行系统综合、分析、评述而编撰出的成果,它可分为综述研究类和参考工具类两大文献类型。
综述研究类文献是在大量原始文献成果基础上对科学技术的发展趋向进行分析研究、综合评述的产物,诸如专题述评、总结报告、动态综述、进展通讯、信息预测。
参考工具类文献是在大量的原始文献的基础上编写成供查阅参考的工具书,诸如手册、大全、年鉴、指南等。
1.3检索工具
1.目录----目录是著录一批相关文献(图书、期刊等),并按照一定的次序编排而成的一种揭示与报导文献的工具。
目,指文献的篇目名称;录,指文献的内容简介。
例如:
图书馆的联机公共书目、全国期刊联合目录,OCLCWorldCat、Ulrich'sInternationalPeriodicalsDirectory。
目录只描述文献的外部特征,其著录项目包括:
题名、著者、出版事项、附注项、内容提要等,只是对整体文献进行宏观著录。
2题录----题录是在目录的基础上发展起来的。
它的著录对象为单篇文献或出版单元中的一部分,其揭示程度比目录深。
题录的款目描述事项包括:
题目、作者、作者工作单位、原文出处(即原文所在出版单元的名称、卷期、页码、出版期、文种等)。
3.文摘----文摘是系统报道、积累和检索科技文献的主要工具,是检索工具的核心。
其著录项目为文献题名、著者及著者工作单位、文献出处、内容摘要等。
4.索引----索引是将文献(图书、期刊等)中的篇目、语词、主题、人名、地名、事件及其它事物名称,按照一定的方式编排,并指名出处的一种检索工具。
例如:
《十三经索引》、《全国报刊索引》、SCI、Ei等。
索引的分类:
按照索引的编排方式可以分为:
形式索引(著者索引、机构索引、号码索引)、内容索引(分类索引、主题索引、语词索引)和关系索引(引文索引、再版索引)。
按照索引的对象(即索引所揭示的原始文献)可以将索引分为:
专著索引、报刊索引、会议录索引等。
5.目录和索引的关系
目录与索引均属二次文献的范畴,都是用来帮助读者利用一次文献(又称"原始文献")的;细微的区别在于:
目录揭示文献的整体,索引揭示文献的局部。
1.4科技查新
科技查新是国家科技部为避免科研课题重复立项和客观正确地判别科研成果的新颖性
而设立的一项工作,由具有科技查新资质的查新机构完成。
查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照科技查新规范操作,有偿提供科技查新服务。
查新工作站是国家教育部和国防科工委认定的开展科技查新业务具有部委级查新职能的认证机构,国防科工委和国家教育部分别于1988年和1992年批准我校图书馆为首批“国家发明奖国防专用项目查新单位”和“国家教委高等学校科技项目咨询及成果查新工作站”,1993年国家卫生部批准同济医科大学图书馆为“卫生部医药卫生科技项目查新咨询单位”,具有国家科技部颁发的“科技查新咨询人员资格证书”,是具有部级查新职能的认证机构,可受理除国家一级鉴定(如国家发明一等奖、科技进步一等奖,此项由国家一级查新站查新)以外的任何鉴定级别的项目查新。
查新工作站的服务内容有:
(1)科研项目立题查新;
(2)科技成果、产品等鉴定、报奖查新;
(3)申请专利查新;
(4)科技文献信息、专利信息、产品信息、商业资信、市场研究等各类信息的咨询。
第二节情报检索语言
基本概念及类型
概念:
情报检索语言是专门用于各种手工和计算机的文献情报存储检索系统,表
达文献主题概念和检索课题概念的人工语言。
类型:
分类语言:
它是用分类号来表述各种概念,即采用概念划分与概括的方法,建立等级体系结构,又采用概念分析与综合的方法,实行组配,这一系列过程都必须遵循一定的分类法的规定。
主题语言:
它是用语词来表达各种概念,将各种概念完全按字顺排列。
主题语言可分为标题词语言、叙词语言、关键词语言、单元词语言。
标题词语言是用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来直接表达文献所论及或涉及的事物----主题,而不管文献是从哪个角度、哪门学科方面来论述该事物的;并将全部标识按字顺排列,而不管各个标识所表达的事物----主题之间的相互关系;籍助于参照系统、范畴表或范畴索引来间接显示标题之间的相互关系。
单元词语言脱胎于标题词语言。
它与标题法相同之处在于使用经过规范化了的语词作标识,来表达文献所论及或涉及的事物概念。
单元词法的基本原理是:
以不能再分解的概念单元的规范化名词作为文献主题概念的标识。
例如:
“工业废物”这一概念,单元词只能通过“工业”和“废物”这两个元词组配来表达该概念。
利用单元词作为检索语言的检索工具主要是《化学专利单元词索引》和《WPI—规范化主题词表》。
叙词语言同标题词语言和单元词语言一样,是以自然语言为基础的一种检索语言。
它吸取了多种检索语言的原理和方法:
保留了单元词法单词组配的基本原理;采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题词法预先组配方法(即采用词组),以克服某些词拆分后再组配时产生意义失真的缺点;采用了标题法对语词进行严格规范化的方法,以保证语词与概念一一对应;采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙词进行标引和查寻。
可见,叙词语言是多种检索语言的原理和方法的综合,体现了检索语言的发展趋势。
关键词语言是一种未经优选和规范化的自然语言。
所谓关键词是指那些出现在文献的标题(篇名、书名、章节名)以及文摘、正文中,对表征文献的主题内容具有实质意义的词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的那些词。
利用关键词法可以实现检索工具编制过程的计算机化(文献自动标引),从而可以降低对文献处理人员的知识和业务水平的要求,同时可以节省大量人力。
标题词、叙词、单元词都属规范词。
由于各数据库涉及的专业范围和建库单位不同,故表示同一概念的规范词不一定相同,规范词选择需要借助相应的词表。
大多数数据库都有自己专用的词表,例如EI信息村的COMPENDEX可用Thesaurus选词。
我国的《汉语主题词表》就是专门描述主题词语言的。
例如:
自行车通常有人说的单车或脚踏车,在《汉语主题词表》中,其规范词是自行车。
代码语言一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。
例如化合物的分子式索引系统,环状化合物的环系索引系统等,此种语言使用面较小。
2.1主要情报检索语言的特点及缺陷
分类语言的特点:
它是一种用分类号直接表达知识分类的等级概念的标识系统,将文献内容的概念按学科性质进行分类和排列,具有等级结构特点。
最大的优点是体系分类是人们认识事物的习惯方法。
《中国图书馆图书分类法》是其典型的一例,还有《中国科学院图书馆图书分类法》以及国际上的《杜威分类法》等。
其缺陷是:
列举式分类法其概念包罗能力低,不能及时反映新的学科概念;
缺乏按任务特征进行组配检索的可能性;
可修改性差;
专指度低;
不适应计算机检索。
主题语言的特点:
它是一种直接采用某一学科中表达某一事物或概念的名称术语类描述组织和检索的。
它将这些名词术语按字顺排列,用参照系统的方法间接显示概念之间的相互关系。
叙词语言的特点:
组配是其基本特性,作用在于提高概念深度,对文献复杂的主题概念进行精确地描述,以提高检准率,特别适应计算机检索从标题词、体系分类法中吸取精华,建立了一个完善的参照系统,揭示了学科间的相互关系,反映了现代科学知识的发展,保证了检全率。
叙词语言以严格规范的自然语言为基础,直观性强。
举例1:
在CSA数据库中有词表,输入:
communication查其是否是主题词:
查到结果如下:
主题词
可见Communication是主题词,用其进行高级检索,题名途径:
我们看任意一条完整的记录格式:
数据库LISA:
LibraryandInformationScienceAbstracts
题名Testgenerationforinteractiondetectioninfeature-richcommunicationsystems.
作者Chi*,Caixia;Hao,Ruibing
单位BellLabsResearchChina,LucentTechnologies,Beijing100080,China
电子邮件地址chic@
来源ComputerNetworks,vol.51,no.2,pp.426-438,7Feb2007
国际标准刊号1389-1286
叙词 Networks;Informationtechnology;Communicationstechnology
文摘
Thispaperproposestwotechniquestogeneratetestsequencestochecktheconformanceofanimplementationofafeature-richcommunicationsystemtoitsspecification,aswellastodetecttheinteractionsbetweenthefeaturesofthesystem.Conceptscolorspanandfeasiblecombinationoffeaturesareintroducedtomeasuretheextentandpossibilityoftheinteractionsbetweendifferentfeatures.Severalalgorithmsareproposedtoproduceanapproximateminimum-costandminimumcolorspantourofthetransitiongraphofafinite-statemachine.TestgenerationusingtheproposedalgorithmsfortheSIP-basedInternettelephonyendsystemandfortheLinkManagementProtocolisreported.(Authorabstract)
特征refs.
语言English
摘要语言English
出版年2007
出版类型Journalarticle
分类14.11NETWORKS
信息提供者tation.asp?
tab=4&navPage=
出版者ElsevierBV
PublisherEmailnlinfo-f@elsevier.nl
更新20061220
获取号475383
唯一标识符10.1016/net.2006.08.015
用查到的主题词Communications
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 情报检索 07级讲义 第一章情报检索的基本内容 07 讲义 第一章 情报 检索 基本 内容