信息组织复习.docx
- 文档编号:12600042
- 上传时间:2023-04-20
- 格式:DOCX
- 页数:55
- 大小:55.46KB
信息组织复习.docx
《信息组织复习.docx》由会员分享,可在线阅读,更多相关《信息组织复习.docx(55页珍藏版)》请在冰豆网上搜索。
信息组织复习
信息组织
1.1.1信息在知识经济中的地位与作用
信息是物质存在的一种方式、形态或运动状态,是标记在通讯系统中的信号,是构成知识的原料。
《牛津英语词典》综述了信息的三种用法:
其一是作为过程的信息(information-as-process),其二是作为知识的信息(information-as-knowledge),其三是作为事物的信息(information-as-thing)。
信息与物资、能源已成为现代社会的三大支柱。
它是物资、能源之后的“第三级资源”。
人们每时每刻都在生产信息、消费信息。
从长期的社会实践中人们认识到,信息是人类的宝贵财富,是国家的战略资源。
•1962马克卢普:
•1973丹尼尔.贝尔:
•1980阿尔文.托夫勒:
•1982约翰.奈斯比特:
•1985美国政府授权Calgary大学成立:
“知识科学研究所”:
•90年代初,信息探索研究所
•1994C.温斯洛和W.布拉马:
•1996《经济合作与发展组织》
1.1.2信息组织在信息资源开发中的地位与作用
由于现代信息技术的发展,特别是随着Internet的兴起和迅速发展,信息生产、传输空前便捷,导致信息量急剧增长,信息质量参差不齐,信息污染日益严重,“信息爆炸”、“知识爆炸”成为现代社会的一大特征。
这一现象给人类提出了两个问题。
其一,知识和信息的海量性和无限性与人的精力、时间的有限性形成了尖锐的矛盾;其二,知识和信息的无序性和污染性与人类使用的选择性同样是尖锐的对立。
信息组织的地位与作用:
1.是信息资源开发利用的基础
现代社会信息的基本特征,是庞杂分散。
人们需求的特点,是专业的高度选择性、内容的精良性和时间的紧迫性。
两者之间的矛盾就依靠信息组织来完成。
2.是信息增值过程
有序的信息、信息系统的价值增加。
3.是在信息生命周期开发信息的要求。
1.2信息资源的描述于发现机制
•1.2.1信息组织原理
信息组织,即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合;信息组织是信息资源管理的基本范畴之一,是信息资源建设的中心环节,是建立信息系统的重要条件,是信息检索与咨询的基础,是开展用户服务的有力保证。
现代社会是一个淹没在信息中的社会,信息资源极其丰富,信息质量参差不齐。
因此,对信息资源的组织主要是对利用价值较高的文献或文献内所包含的信息单元或知识单元的组织。
(1)信息组织的理论基础:
系统论、耗散结构理论和协同论是信息组织的理论基础。
(2)信息组织的方法基础:
语言学、逻辑学、知识分类是信息组织的方法基础。
1.2.2信息资源描述
信息资源描述是信息组织的前提。
信息资源描述是指根据信息组织和信息检索的需要,对信息资源的内容特征和信息资源的形式特征进行分析,选择和记录的活动。
1.2.2.1信息资源描述的标准化
(1)文献信息著录的标准化
是指在国家或者国际范围内,对文献著录的原则、内容、格式等做出具有一定约束力的规范。
(2)网络信息资源描述标准化
元数据标准
元数据:
关于数据的数据。
1.2.2.2信息资源标引
(1)标引的涵义:
分析文献内容的属性及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。
(2)标引语言的基本概念:
表达文献主题概念和文献需求主题概念的简明性、单义性和关联性概念标识系统,是根据标引和检索需要而编制的人工语言。
(3)标引语言的类型:
(4)标引类型:
由于用来表达文献内容的标引语言有不同的种类,相应地文献标引也有不同的种类。
其中,最主要的是用分类标引和主题标引。
1.2.3信息资源检索
信息组织是信息检索与利用的基础,信息检索与利用是信息组织的目的。
文献信息在经过著录和标引等方式进行描述后,再根据描述结果按一定的规则和方法进行排列,从而形成有序的、可供检索的信息集合。
(1)检索语言
(2)检索原理
1.3信息组织的发展沿革
•信息组织是信息管理的重要环节和基本工作。
信息管理的目的是解决日益增长的信息需求和相对滞后的信息服务的矛盾,信息组织是解决这一矛盾的关键环节。
信息组织的发展主要是与信息管理整体发展和信息组织理论方法发展及信息技术发展紧密联系的。
1.按照职能把信息组织的发展区分为三个阶段。
A.清册职能时期
B.查检职能时期
C.组织职能时期
2.按组织对象将信息组织的发展划分为三个阶段。
A.文献组织阶段
B.信息组织阶段
C.知识组织阶段
1.4信息组织的方法与技术
1.4.1信息组织的基本方法
信息组织的基本方法:
依据信息的基本性质,信息可分为语法信息、语义信息和语用信息。
对这三种信息进行组织,也成为信息组织的基本方法.
语法信息组织方法
字顺、代码、地序、时序
语义信息组织方法
分类、主题
语用信息组织方法
权重值、概率
1.4.2基于传统印刷型载体信息的组织方法:
长期以来,以纸张为记录载体的文献组织方法是以分类组织法和主题组织法为主要形式;除此之外,传统信息组织方法包括字顺组织法、时间空间组织法、随机组织法等。
1.4.3网络环境下信息资源的组织方法:
目前,随着各种先进的网络技术以及Internet的发展和应用,信息网络化已经成为现实。
在信息网络环境下,随着信息资源、信息量、信息种类及传递速度的发展,信息组织方式也发生了深刻变化。
(1)量大、增长快
(2)种类多,数据库成分复杂
(3)用户要求组织方式透明、易用
(4)信息资源共享要求标准化、兼容化
网络信息资源的组织方法
网络一次信息的组织方法
(1)超文本
(2)自由文本
(3)主页
网络二次信息的组织方法
(1)搜索引擎
(2)主题树
1.4.4现代信息组织技术
•自动分类标引技术
•自动主题标引技术
•汉语分词技术
2信息组织的分类描述语言
2.1信息资源管理的分类语言
分类语言是信息组织的重要手段,它用分类号来表示各种概念,将各种概念按照学科性质进行分类和系统排列。
分类语言包括
(1)体系分类法的构成原理
体系分类法主要是应用概念划分于概括的方法
(2)组配分类法的构成原理
组配分类法主要是应用概念分析于综合的方法
2.1.1分类语言的构成原理
1)体系分类法的构成原理
(1)体系分类法一种直接体现知识分类的等级制概念标识系统。
他是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分和概括)和系统排列而构成的。
体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献的途径。
分类语言
也称分类法,用分类号表达主题概念,依据知识分类将主题概念组织、排列成类目体系,主要以类目体系的自身结构显示概念之间关系的标引语言。
《人大法》
《科图法》
《中图法》
《DDC》/《杜威法》
《LCC》/《国会法》
《UDC》/《国际十进分类法》
《CC》/《冒号分类法》
一般分类应该遵守的规则P47
唯一性
完整性
科学性
(2)组配分类法的构成原理:
概念组配分类法的构成是基于概念的可分析性和可综合性的。
即可以一个复杂概念可以分为若干简单概念,若干简单概念可以综合位一个复杂概念。
因此,一个复杂的主体概念可以用若干个简单的概念标识的组配来表达。
组配分类法是体系分类法的发展。
创造组配分类法的目的,主要是为了克服体系分类法的列举式分类所造成的不能无限容纳概念的局限性,以及类目单线排列造成的集中于分散的矛盾。
实际上,复分表和仿分法以及表示复合类目的组配符号等,已经初步有组配分类法的雏形。
•印度图书馆学家阮冈纳赞于1933年创立了组面标引方法,系统地提出了分面分类和分面标记的理论,即通过把主题领域分成若干个单元或分面,给每个分面一个号码,然后根据合成方法组成分类号。
将概括文献内容与事物的主题概念组成“知识大纲-分面-亚面-类目”的结构体系,按一定的规则,通过各分面内类目之间的组配来表达文献主题的一种文献分类法,亦称分面分类法、组配分类法、分析-综合分类法。
著名的分面组配分类法有《冒号分类法》(CC)、《布立斯书目分类法(二版)》(BC2)。
这种分类法类表篇幅小,能通过类目的组配表示众多的主题概念,能从多途径进行比较精确的组配检索,也便于增补和修订。
•与分类法和主题法相比,组面标引法具有实质性的变化。
它把文章内容归纳成很少几个固定的组面,不同组面排列成固定顺序,只是每个组面中的组分发生变化。
它提供了一种用组合法来适应多样性的方案。
另一个关键的突破是组面标引法引入了结构要素,一个词放在不同的位置上,它的作用是不同的。
《冒号分类法》、《布利斯书目分类法》(见《书目分类法》)这一类型。
它的主体是基本类表和分面类表,此外还有编制使用说明、大纲(或简表)、分面公式、索引等。
基本类表由基本大类和基本类组成,先根据学科体系设立若干基本大类,每个基本大类根据需要分为若干基本类。
分面类表是基本类再作进一步的分面分类而形成的。
半分面分类法是一个由学科、分支学科(专业)、组面、亚面、类目等组成的分类体系。
如《冒号分类法》(第6版)设有42大类,其中艺术大类又分为建筑、雕塑、绘画、音乐、舞蹈、戏剧等基本类。
雕塑类又再细分为风格、形象、材料、技巧等组面,一共设有100多个类目。
为保证组配标引的一致性,半分面分类法还为各个基本类分别设置分面公式,规定不同组面使用的先后次序,如《冒号分类法》“2图书馆学”类的分面公式为:
2〔P〕;〔M〕:
〔E〕〔2P〕此式即表示其组配次序为:
图书馆类型面/资料面/操作面/学科面/空间面/时间面。
•分面分类法采用分段标记制,即分类号由若干具有独立意义的节(段)组成,它不仅可表达一个主题概念,而且可从分段形式上显示出构成这一主题概念的各个组面及主题因素。
如“大学图书馆中的期刊流通工作”这一文献主题,《冒号分类法》的类号是234;46:
6。
从类号可以看出它由3个组面组配而成,其中“2”是基本类(图书馆学),“34”是大学图书馆,“;46”是期刊,“:
6”是流通工作。
由于每个节段的末端都可以扩充,因而其容纳性较强(见分类标记)。
2.1.2分类语言的体系结构(合并在中图法)
体系分类法的结构体系
(1)分类表
大纲、简表、主表、辅助表
(2)编制和使用说明
(3)索引
体系分类法的微观结构
2.2国内外分类语言实例
•《中国图书馆图书分类法》
•《杜威十进制分类法》(DDC):
•DDC在图书分类法发展史上具有里程碑的意义,它的历史最悠久,流传最广泛,现已被译为30多种文字出版,至少有135个国家和地区的20多万个图书馆采用。
DDC的特点
杜威分类法与中图法相比
基本结构相同,都是分层的树状结构
对于第一大类的划分上,不同点只是某些类的细化和综合。
对于交叉学科和相关学科的处理方法相同。
《国际十进分类法》
UDC的特点(教材43页)
较早、较全面地采用概念分析与综合原理及冒号组配技术,是世界上第一部半分面分类法。
类目详尽,详本类目多达15-21万个。
标记制度灵活,辅助符号多达十几种,表达概念能力强。
当然,UDC也有修订不及时,类目体系陈旧,组配过于复杂等不足.
《国会图书馆图书分类法》(LCC):
LCC的特点使得这部为国会图书馆编制的分类法逐渐被越来越多的美国高校、专业图书馆以及一些其他国家的图书馆所采用。
不过类目无严密的体系,没有统一的编制说明、类表索引和通用复分表,是其明显的不足。
《中图法》:
P33
基本序列
基本大类
类目排列的基本原则
标记制度
组配技术
冒号组配
类目体系
是按照类目之间的关系建立起来的类目集合。
类目体系是分类法的主体。
类目体系通常在基本部类的基础上,由基本大类、简表、详表、复分表组成。
基本大类、简表、详表构成类目表的主体。
复分表,又称附表,是一种配合主表使用的辅助表。
《中图法》为例:
基本部类——是为分类法的合理展开对知识范畴所作的最概括、最本质的划分。
基本部类的排列次序为基本序列。
马列主义、毛泽东思想
哲学
社会科学
自然科学
综合性图书
基本大类
——分类法列出的第一级类目,也是分类法整体框架的体现,又称基本大纲。
简表
基本类目表,主要类目表,是由分类表的基本类目组成的表。
一般是在基本大类下展开一二级类目,是一个承上启下的表。
详表
详表是由详细列出的子目组成的类目表。
是分类法的主体和正文。
是分类的依据。
2.3数字化信息资源管理中的分类描述语言
2.3.1数字化信息资源组织的特点:
P53
(1)著录对象复杂
(2)储存的信息具有动态性
(3)网络信息是交互式、多媒体信息
(4)能反映形式特征的事项不多
(5)利用数字化文献所需要的环境复杂
(6)载体形态和篇幅难以确定
(7)主要著录根据难以确定
(8)储存地点多样化
2.3.2网络信息组织的分类法
(1)现有文献分类法在网络信息组织中的应用:
P56
杜威十进分类法、国际十进分类法、国会图书馆图书分类法
还有一些专业分类法用于组织专业性网络信息资源,如《工程信息分类法》用于EdinburghEngineeringVirtualLibrary和EngineeringElectronicLibrary,Sweden的信息组织;美国数学学会的MaterialsOrganizedbyComputerScienceSubjectInformation采用《计算评论分类法》组织其信息。
我国的《中图法》被“网络指南针”用作组织信息资源的三种分类体系之一。
(2)现有分类法对网络信息组织的适应性
其优势和特点:
(教材57页)
(3)用于网络信息组织的自编分类系统(教材57页)
自编分类系统主要包括:
等级式主题分类法系统;分面组配分类法系统;学科分类法系统。
其特点是:
重视事物为中心、类目收录范围宽、多重列类重复反映、排列方式简便、直接语词组织信息、更新迅速。
同样缺点也明显(教材59)
类目缺乏规律性
类目归属存在不合理现象
同位类不能揭示类目间关系
横向关系揭示上存在不一致
部分类目不确切
分类规则不够完善
2.3.3网络信息资源分类体系的建立P60
(1)网络信息分类的原则
直接性、数据保证、自然和实用、快捷
(2)网络信息分类法的构建
以传统分类主题为基础
按需设类突出重点
控制类目级别
分类与主题相结合
网站分类以主题为主,学科为辅
3信息资源组织的主题描述语言
主题语言也称主题法,它是一种由受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照显示概念之间关系的标引语言。
标题语言
单元词语言
叙词语言
关键词语言
3.1主题描述语言的沿革
3.1.1标题词描述语言
标题语言是最早产生的一种主题语言。
标题是主题标目(SubjectHeading)的简称,它是直接表达文献主题的标识,大多是对文献内容所论及事物名称及特征的规范表达。
众多标题集合而成的主题标识系统,就是标题语言.目前,使用最广的标题表是《美国国会图书馆标题表》。
标题语言的原理
(1)标题的性质P67
直接性
直观性
受控性
语义关联性
先组性
示范性
先组式语言:
是指在检索实施前已事先组配好的一种检索语言,用户只能用这种已经固定好的检索词组形式去完成检索,它有较好的直接性和专指性,但灵活度差,比如标题词语言。
后组式语言:
是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言,在检索时将它们临时组配起来,表达一定的概念,来完成检索。
这种后组方式提供了灵活的组配方式,在计算机检索中的到广泛应用。
(2)标题语言的特点P67
受控语言
字顺排列
概念形成语义网络
按事物集中
先组式
适应能力强
(3)标题语言的类型P68
单级标题、带说明的单级标题、多级标题、倒置标题、带限定词标题、混合标题
(4)标题语言的范围和选词原则P69
具有检索意义
适当的专指度
通用性和准确性
唯一性
标题表(标题词表)是一部标题词典。
(1)标题表的作用P70
登录受控的标题和非标题
按字顺和参照系排列
说明标引和检索方法
提供标引示范
(2)标题表的结构
(3)标题表款目的结构
3.1.2叙词描述语言P72
(1)叙词语言的前身——单元词语言:
是一种以单元词作为主题标识,通过字面组配的方式表达信息资源主题的主题法。
单元词(Uuit),又称元词,是指用来标引信息资源主题的、最基本的、字面上不能再分的语词。
如:
火车、郑州、邓小平、图书馆、污染、天文学等。
(2)叙词语言的原理:
P73
是一种使用规范处理的叙词作为文献主题的标识,通过概念组配的方式表达文献主题的主题语言。
叙词(Descriptor),国内又称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词或词组。
叙词语言目前是应用较广的一种主题语言,已成为受控语言的主流。
我国使用最广泛的叙词表是《汉语主题词表》(简称《汉表》)。
(3)叙词表:
P75
叙词表的结构体系
字顺表的款目结构
3.1.3关键词描述语言P79
(1)关键词语言的原理:
关键词是指那些出现在文献的标题以至摘要、正文中,对描述文献主题内容具有实质意义的语词,也即是对提示和描述文献主题内容来说是重要的、带关键性的那些语词。
标题词、单元词都是要对自然语言加以严格的规范化处理,而关键词基本上不做规范,或者作极少量的规范化处理。
其原理在于:
1、直接抽取文献中的语词作为标识。
2、不编制受控词表、不显示词间关系、只是编制禁用词表控制抽词。
3、每个词是平等的,按字顺轮排。
(2)关键词索引的类型:
题内关键词(上下文关键词)
题外关键词(关键词在题名外、即左边)
双重关键词(用两个关键词)
单纯关键词(仅仅用关键词标引一篇文献,现在的很多图书、论文都如此)
词对式关键词(每次取一对关键词,标引深但易读)
简单关键词(只用一个关键词)
(3)关键词索引的性能:
缺点:
1、无规范,易漏检。
2、难以进行族类检索
3、对内容表达不充分,易误检和漏检
4、机编情况下,产生大量冗余
优点:
1、没有词表、无需主题分析,简单
2、容易实现自动化
3、使用自然语言,比较直观、专指,提高查准率。
3.2国内外主题语言应用实例
3.2.1《汉语主题词表》
《汉语主题词表》选词
《汉语主题词表》的体系结构
(略:
信息检索讲授)
3.2.2MeSH:
《医学标题表》
(1)MeSH的结构及格式:
(2)MeSH的标题结构和种类:
(3)INSPECThesaurus
《科学文摘》有以下多种出版形式:
3.3网络信息资源组织中主题语言的应用
3.3.1关键词法在搜索引擎中的应用
主要通过高级查询功能实现。
在搜索引擎那一章具体介绍。
3.3.2现有主题词表在网络信息资源组织中的应用
主要在一些国外专业数据库中使用。
因为文献的专业化程度高,所以对文献区分的专业化要求高。
其余通用一般使用关键词。
3.4网络信息组织的实例
3.4.1OCLC编目和资源共享服务:
OCLC是世界上最大文献信息服务机构之一。
WORLDCAT是世界上最大的书目数据库。
3.4.2新华网信息组织
3.4.3中国价格信息网:
4信息组织
4.1SGML
从信息组织的电子信息组织的发展来看,依发展的时间顺序介绍三种电子文件格式:
标准通用标示语言(StandardGeneralizedMarkupLanguage;简称SGML)、超文件标示语言(HypertextMarkupLanguage;简称HTML)与最新崛起的可扩展标示语言(ExtensibleMarkupLanguage,简称XML)。
SGML是ISO在1986年所颁布的国际标准(ISO8879),在电子图书馆相关计划中,目前有TEI(TextEncodingInitiative)、EAD(EncodedArchivalDescription)、CIMI(ConsortiumfortheInterchangeofMuseumInformation)、DIAP(DigitalImageAccessProject)与美国国会图书馆的AmericanMemoryProject等采用SGML作为文件格式。
HTML是SGML的一个应用,是一种用以创造超文件(hypertext)的简易数据格式,目前在全球信息网(WorldWideWeb;简称WWW或Web)获得普遍的采用,是写作网页(webpages)的标准语言;XML是全球信息网联盟(WorldWideWebConsortium;简称W3C)在1996年底所提出的标准,1998年2月公布XML1.0Recommendation,相关标准目前仍在发展之中。
这个新一代的标示语言被期许能具有SGML的弹性,但又不像SGML般复杂,并能如HTML般能在Web上传送。
一.什么是标示(markup)
SGML、HTML、XML都是标示语言(MarkupLanguage)。
最早,标示是文件在排版时,用来指示文字如何编排的指令,包括控制字体的大小、字型的选择(如楷体、细明体等)、字形的处理(如粗体、斜体、加底线等)、页面的大小(如A4、B5等)、天地左右的留白宽度、标题、段落、脚注、表格…等,这些标示并不处理文件的内容,主要用来处理文件实际的呈现外观,这类的标示称为程序性标示(ProceduralMarkup)。
大部分的电子出版或文字处理软件都使用专属性的程序性标示,也就是说这些系统都使用专属的句柄来执行文件的处理,如字体的加粗、放大…等
这些专属的句柄大都只能在特定平台的特定的系统或相关软件中执行,如果所使用的硬件或系统软件换了,这些标示过的文件往往必须进行重新标示的工作,这种数据转换所花费的代价通常相当的大;同样的,使用程序性标示的文件在交换时,文件交换的双方通常必须使用相同的系统。
一般而言,程序性标示的作用都只针对单一文件,例如控制某一份文件以特定的格式输出,如果同一份文件内容希望以不同的呈现外观再利用,必须移除先前的标示,加入符合新的呈现外观的标示;或者将同样的文件内容复制一份,为新的呈现外观进行标示。
另一类的标示称为描述性标示(DescriptiveMarkup),也称为通用标示(GenericMarkup或GeneralizedMarkup),所描述的是文件的内容(content)或结构(structure),而不是文件的呈现外观。
描述文件结构的方式是以标示指定结构中的元素(elements),以文章为例,其结构可能有标题、章、节、参考书目…等;以书信为例,结构可能有寄件人、收件人、书信内容…等。
通用标示的基本概念是文件的内容必须和文件的呈现信息(即所谓的样式)分开,由于内容、结构与呈现信息分开,所以同一份文件内容可以有多种呈现方式,例如同一个档案可能以纸本、在线、CD-ROM与Web版本发行。
XML、SGML都是典型的通用标示语言
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 复习