3信息检索与检索语言.docx
- 文档编号:3811991
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:9
- 大小:29.40KB
3信息检索与检索语言.docx
《3信息检索与检索语言.docx》由会员分享,可在线阅读,更多相关《3信息检索与检索语言.docx(9页珍藏版)》请在冰豆网上搜索。
3信息检索与检索语言
文献信息检索与利用课程教案
授课时间
第周星期第节
星期第节
课次
3
授课方式
(请打√)
理论课√讨论课□实验课□习题课□
课时
安排
2
授课题目(教学章、节或主题):
第三讲信息检索1.信息检索类型及意义
2.检索系统
3.检索语言
教学目的、要求:
了解信息检索类型和检索系统发展过程,掌握检索语言的类型及特点,掌握分类语言的基本类目。
教学重点及难点:
重点:
信息检索类型与检索语言
难点:
分类语言与主题语言
授课内容:
第三讲信息检索与检索语言(见第二章P13)
3.1文献信息检索的定义与类型
3.1.1定义
信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要查找所需信息的过程。
3.1.2.信息检索的分类
⑴按检索对象划分:
文献检索、数据检索和事实检索。
文献检索:
是根据课题研究的需要,利用检索工具和检索技术方法,查检获取文献信息的过程。
数据检索是以数据为对象的一种检索,即查寻包括在文献中的某一数据、公式、图表以及某一物质的化学分子式等等。
数据检索是一种确定性的检索。
事实检索是以事实为对象的一种检索。
即查寻某一事物发生的时间地点及过程等。
⑵按检索手段划分:
手工检索、机械检索和计算机检索。
手工检索,主要是利用目录、文摘、索引、题录等手工检索工具等方法来查找和获得信息。
在信息检索中,手工检索是基础,检索工具是主体。
机械检索,主要是借助力学、光学、电子学等技术手段进行信息检索。
计算机检索,利用计算机检索系统、数据库资源和信息检索标识查找文献信息的过程。
⑶按检索途径划分为:
直接检索、间接检索。
直接检索是从信息源或信息载体中直接获取信息。
间接检索是通过检索工具的指引间接获取所需信息。
3.1.3信息检索系统P15
手工检索系统
穿孔卡片检索系统
缩微品检索系统
光盘检索系统
计算机检索系统
网络化检索系统
3.2科技信息检索的意义与作用
随着科学技术不断地发展,科技信息也随之快速增长,尤其是互联网的出现网络信息更是如潮水汹涌。
在现代社会生活中,人们对信息的需求要比对能源、材料的需求更加迫切。
其主要意义有:
1.把握科技发展动态、提高科研成功率
2.节省研究人员查找文献的时间,提高科研效率
3.掌握获取文献的方法,提高情报意识和情报观念
3.3信息检索的发展与趋势
3.3.1现代文献信息检索主要经历了如下两个阶段:
1.成熟、定型与稳定阶段
十九世纪初,文摘刊物从一般刊物中分离出来,单独编辑出版发行。
索引工作与文摘刊物紧密结合。
检索语言和索引方法也开始确立并发展较快,分类法、标题法、分面组配分类法对索引工作都产生了深远影响。
与此同时,参考咨询工作也出现了。
2.迅速、全面发展阶段:
计算机技术、现代通信技术应用于文献检索领域,使文献检索获得了突飞猛进的发展,具体表现在以下几个方面:
⑴面向任务和跨学科的文摘刊物开始涌现。
⑵文摘索引工作向集中、协调和合作的方向发展。
成立了国家科技信息机构,集中管理和协调文摘索引工作,建立本国的检索刊物体系,同类刊物的合并;国与国之间合作;世界范围的合作等。
⑶电子计算机检索迅猛发展。
1957年,许多文摘索引刊物实现了计算机编制。
机读数据库可用于计算机检索,借助于现代通信网络,检索服务可以覆盖世界各个角落,实现全国乃至世界范围的信息资源共享。
⑷检索理论和方法体系初步形成。
文献检索研究迅速与数学、计算机科学、系统科学、语言学、信息论等学科结合起来,大大扩展了研究领域,研究水平也从现象描述进入实验研究,新的文摘索引方法、检索语言、检索技术、信息产品和评价方法不断涌现。
⑸文献检索领域进一步扩大。
到二十世纪后期,全文检索迅速发展,特别是在新闻、法律和商业等领域;社会科学和人文科学领域的文献检索逐步实现现代化;经济和商业领域信息检索服务的发展势头已超过科技领域;非文献型数据库和商情数据库的数量及利用率已超过常规的文献数据库。
⑹信息检索实现网络化。
信息技术的发展使互联网迅速广泛普及,信息流通无论是在时间还是空间上都得到了极大的改善,人人可以从网上检索到信息,同时也可以把自己的信息送上网供其他人检索,信息检索真正进入了网络化阶段。
3.3.2信息检索的趋势
信息检索随着科学技术的进步而不断发展,今后趋势是:
1.全文检索日益重要。
全文检索是信息检索领域中的一次革命,它以文本数据为主要处理对象,根据资料内容而不是外在特征提供检索手段。
与常规数据库检索采用结构化数据查询不同,全文检索不仅要查询结构化数据,而且还要查询非结构化数据。
与标引检索相比,全文检索提供了全新的、强大的检索功能。
目前全文检索已在图书馆、信息中心、报社等机构广泛应用。
2.信息检索与计算机技术的关系越来越紧密。
随着计算机技术的日新月异,许多先进的科技成果在信息检索领域得到了广泛应用。
以下技术都与信息检索有密切关系:
⑴人工智能技术。
解决全文检索的非结构化查询的问题,除了应用自然语言理解、处理、切分词技术以外,人工智能技术也起到了很好的支持作用,它使得全文检索系统具备更强的认知能力,从而避免“误查”和“漏查”。
⑵Client/Server体系结构。
采用该结构可使检索系统具有良好的可伸缩性和可选择性,在实际多用户环境中获得很高的性能,这在网络化建设的今天,具有重要意义。
⑶多媒体技术。
信息的表现形态目前正在从单一文字向多媒体发展,多媒体技术处理信息的范围从标准的文本数据,扩大到各种图像、图形、视频和音频信息,从而实现文字、图片的统一管理、存储、检索和输出。
接收、处理、存储、显示图文一体化的信息资料,是检索系统进一步扩大应用领域的必然趋势,对多媒体的支持,使得检索系统更加丰富多彩。
⑷网络技术。
目前网络信息检索有两种方式,即因特网方式和本地网方式。
如上所述,随着因特网的飞速发展,全文检索技术成为信息系统中不可缺少的关键功能和必要手段,而因特网搜索引擎以全文检索为核心技术,从而成为网络时代的主流技术之一。
虽然因特网方式速度较慢,但其检索范围要大很多。
本地网方式是利用专门检索软件检索本地网中的信息,与搜索引擎相比,这类软件一般具有更强大的检索能力和更灵活的检索方式,检索速度比因特网方式快得多,它广泛应用于图书馆和其他信息服务机构,但检索范围相对要小。
3.检索语言由多样化向一体化、中介化方向发展。
检索语言的兼容性和互换性日益受到重视,各种—体化语言、中介语言、词汇兼容互换技术和后控技术陆续出现并投入应用。
4.索引方法向自动化、智能化方向发展。
信息处理和传播进一步电子化,文字处理与编辑、建库、出版发行、检索、原文提供等环节以联机链方式走向—体化,已成为信息生产与流通的新模式。
联机检索正与办公自动化系统连成一体,从单纯的文献线索检索已逐渐发展到全文检索和文字、声音和图像一体化检索。
5.检索服务和信息产品更加多样化。
从面向学科和任务的服务发展到面向问题和面向办公室与家庭的个性化服务。
单一的机读型工具日益增多,有些原始文献只以机读形式出版,如某些电子期刊或电子图书等。
3.4检索语言P23-
检索语言是情报检索系统存储与检索所使用的共同语言。
通常用人们约定的词汇和规则组成。
检索语言亦称标引语言、索引语言。
在检索过程中,检索语言起着重要的作用。
它是沟通信息存储和检索两个过程中标引人员和检索人员双方思路的桥梁,又是编制检索工具的各种索引的依据,也是计算机化的信息存贮检索系统用以表达文献主题概念和检索课题概念的人工语言。
如果没有检索语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同内容的信息需求表达取得一致,检索就不可能顺利实现。
因此,为达到识别或检索目的而由信息工作系统专门编制、使用的一种控制语言从某种意义上来说,它是一种信息识别符号体系。
3.4.1定义:
检索语言:
是从自然语言中精选出来并加以规范化的一整套词汇、符号,用以对文献内容和信息进行概括或表示其概念关系的标识体系。
组成:
检索语言由词汇和语法组成。
词汇:
指登录在类表、词表中所有标识--分类号、检索词、代码等标识,是可识别语词。
语法:
指如何创造和运用标识来准确表达信息内容和特征,以有效实现信息检索的一整套规则。
检索语言具备的三个基本要素:
1有一套专用字符来构造词汇;2有一定数量的基本词语用来表达基本概念;3有一套专用语法规则,用严格的句法手段和词法对词汇进行控制,以准确表达各种各样的概念。
要把存贮和检索联系在一起,检索语言所表达的要领应该是唯一的。
这就是说,表达概念要与所表达的事物一一对应,尽量减少一词多义和多词同义的现象,要使其在该检索语言中具有单义性。
一种较艰的检索语言还应具有对多种检索要求的广泛适应性,保证有较高的检全率和检准率。
具有对多种学科和多种信息类型的适应性;具有与其他检索语言的兼容性和国际通用性。
3.4.2类型
各种检索语言为人们提供与信息交往勾通的樗和识别语符,它们的基本原理是一致的。
不过,由于在表达各种概念及其相互关系时所采用的方法不同,因而也形成了不同的检索语言类型。
检索语言类型:
主题检索语言、分类检索语言、代码语言三种主要类型。
主题语言(关键词、标题词、叙词、单元词)
分类语言(由学科类目类号组成)
代码语言(国际标准书刊号、邮政编码、标准号、专利号、经济合同号等)
1分类语言:
分类是区别事物及其相互关系的一种思想方法,是人们思维活动中的一种本能。
人们在实践中广泛运用这种方法来认识和区分周围的事物,从日常生活到探讨当代科学的发展,无不与分类有关。
图书馆和信息管理部门在对文献资料进行有效地管理过程中,分类的方法应用的及为广泛。
这是因为读者一般都是在某个专业范围或某个学科中从事科研、教学、生产和管理活动,习惯于从学科和专业出发获取知识和信息。
因此用分类的方法管理文献信息是有益的。
分类的原理:
就是对知识概念的划分。
任何知识都是一个概念,任何一个概念都有内涵和外延。
概念的外延所指的是一类事物,而“类”是具有共同属性的事物的集合。
一类事物除了具有共同属性之外,还有许多不同的属性,即同类事物并不完全相同,不同的属性可以使用权同类事物进一步划分,所以“类”是可以划分的。
分类语言是用分类号来表达学科体系的各种概念,将各种要领按学科性质进行分类和系统排列。
具体地说,它是以学科分类为基础,按照概念划分的原理,将知识要领从具体到一般、从简单到复杂、从低级到高级逐级划分,每划分一次就形成一批并列的概念----下位概念,它们同属于一个补划分的概念----上位概念。
如“固体力学”这个类可以划分为“材料力学”、“结构力学”、“弹性力学”、“塑性力学”等子类。
“固体力学”被划分的类,即上位类(上位概念),它所划分出的几个子类,即下位类(下位概念)。
这几个下位要领之间体现的是平行的关系,而上下位类之间则是隶属关系。
每个类目都用分类号作为标识,每个分类号就代表特定的知识要领体现这种分类体系的就是分类(法)表。
例:
《中国图书馆图书资料分类法》分类简表的五大部22个基本大类
A马、列、毛泽东思想N自然科学总论
B哲学O数理科学和化学
C社会科学总论P天文学、地球科学
D政治、法律Q生物科学
E军事R医药、卫生
F经济贸易S农业科学
G文化教育体育T工业技术
H语言文字U交通运输
I文学V航空航天
J艺术X环境科学
K历史传记Z综合科学
二级类目举例:
I文学
v
I0文学理论I22诗歌
v
I1世界文学I242古代作品
v
I2中国文学I24小说I246近代作品
v
I247当代作品
I3/7各国文学I26散文
T工业技术
TB一般工业TN无线电电子学、电信技术
TD矿业工程TP自动化技术、计算机技术
TE石油、天然气工业TQ化学工业
TF冶金工业TS轻工业手工业
TG金属学与金属工艺TU建筑科学
TH机械、仪表工业TV水利工程
TJ武器工业
TK能源与动力工程
TL原子能技术
TM电工技术
2主题语言:
是一种直接表达文献的主题概念的标识语词。
将这些作标识的语词按字顺排列并使用参照系统来间接表达各种概念之间的关系,这就是主题语言。
根据词语的选词原则、组配方式、规范方法,主题词语言可分为标题词语言、关键词语言、叙词语言。
⑴标题词语言:
也称作标题词描述语言,是以标题词作为文献内容和检索依据、完全先组式规范化的语言题语言。
所谓标题词,是指从自然语言中选取经过规范化处理,能表示事物概念和文献主题内容的完整名词术语(词、词组或短语)。
在编制词表时,事先将一级标题词和二级标题词加经固定组配,所以它属于先组式规范化的检索语言。
⑵关键词语言:
是一种用自然语言来做标识的检索语言。
这里讲的自然语言是指从文献的题名、文摘或正文中抽出来的非规范化的实意词。
在主题语言中,只有关键词是不做规范化处理的,也不受词表控制。
它的原理是将出现在文献标题、摘要或正文中具有实质意义的关键词排在检索入口,注明文献地址,从而达到满足用户检索的要求。
⑶叙词语言:
叙词:
是指从自然语言中优选出来并经过规范化处理、从概念上不可再分的基本概念单元的名词术语。
是对信息内容主题进行描述的后组式检索语言。
检索时利用这些表达概念单元的叙词进行组配,以表达一个复杂的概念。
叙词语言是近代用途较文,既适用于手工检索,又适用于计算机检索。
3.代码语言
代码语言是指用字母符号编码的检索语言标识,如:
标准号、专利号、合同号、身份证号、国际标准书号ISBN,国际标准刊号ISSN、邮政编码、书刊邮发代号等。
检索语言的种类虽多,但常用的手工检索工具中所用的检索语言也只有体系分类语言、关键词语言和叙词语言。
如何运用这些语言查找文献的方法,我们将在以后的章中介绍。
3.4.3主题词的选词原则
1.使用反映主题内容性质的实词,主要是名词
2.不使用虚词、关联词、语气词
3.新词与旧词一般选用新词,
4.简称与全称一般使用全称,具有唯一性的通用公认的简称可直接使用如“中国”。
5.同义词可合并
6.近义词可替代。
7.国外姓名按姓前名后。
8.翻译词按意译
3.4.4检索语言功能
检索语言是标引者和检索者在信息存贮和查检过程中沟通的桥梁。
利用检索语言所组成的分类法或主题词表、号码表,就可以对住处资料进行标引加工和检索利用。
一般来说,具体的信息检索系统由文档信息资源、设备、人员三部分组成。
人们由于其专业知识、工作和生活经历、语言习惯各不相同,因而在使用检索语言上出各不相同。
若不采用一定的措施克服语言上的差异,就难以形成完全一致的共同语言。
检索语言可以可以保证存贮和检索人员用语的一致性。
检索语言主要作用有以下四点:
1对信息的内容特征及某些外表特征加以标引,赋予其检索标识,保证不同的标引人员表征信息特征的一致性;
2便于将标引用标识符和检索用标识符进行相符性比较,同时它保证检索提问和文献标引的一致性;
3保证检索结果和检索要求的一致性;
4对内容相同或相关的信息,加以集中或揭示,表述其相关性;
5便于对大量信息加以系统化或组织有序化,并力争从多方面揭示文献信息学。
练习与思考题
1.检索语言的类型及分类语言、主题语言的概念
2.简答文献的特征信息有那些?
3.《中图法》的基本类目与类号,你所学专业的学科大类的二级类目主要有哪些?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 语言