专门数字对象描述元数据规范.docx
- 文档编号:26702042
- 上传时间:2023-06-21
- 格式:DOCX
- 页数:15
- 大小:23.74KB
专门数字对象描述元数据规范.docx
《专门数字对象描述元数据规范.docx》由会员分享,可在线阅读,更多相关《专门数字对象描述元数据规范.docx(15页珍藏版)》请在冰豆网上搜索。
专门数字对象描述元数据规范
专门数字对象描述元数据规范
研制工作手册
(试行)
《专门数字对象描述元数据规范》子项目组
2003年3月
为了保证子项目组研制的各种元数据规范在功能、数据结构、格式、语义语法等方面的一致性和整体性,同时也为了今后在更大范围内实现与其他系统或数字图书馆的互操作和数据共享,项目组特制定本手册。
手册主要内容包括:
1,描述元数据的定义及功能
2,元数据规范的设计原则
3,描述元数据的基本结构、元素组成与扩展规则
4,描述体系与定义方法
5,元数据规范应用的相关规则
6,设计流程与工作规范
7,文档规范
本手册为试行稿,其中很多内容尚需在实际工作过程进行修订,涉及到核心元素集、元素定义方法、扩展规则、描述体系等方面的内容,将与“基本描述元数据规范”子项目组进一步探讨后确定。
各工作小组可暂时按此执行,在执行过程中如有问题,可向子项目组提出,并在子项目组会议上讨论修改并通过。
一、描述元数据的定义及功能
描述元数据:
即用于描述或标识数字对象内容的元数据。
设计描述元数据规范时,要充分考虑和实现元数据的下列功能:
描述:
对信息对象的内容、属性等的描述,是元数据最基本的功能,为信息对象的检索与利用奠定了基础。
定位:
即有关信息资源的位置方面的信息,如DOI、URL、URN等的记录,由此可知信息对象之所在,有利于信息的发现和检索。
管理:
对信息对象的权限管理(版权、所有权、使用权)的揭示和描述。
检索:
在描述过程中,将信息对象中的重要信息抽出标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,从而有利于用户发现其真正需要的信息。
评估和选择:
由于元数据的描述,使用户在不必浏览信息对象本身的情况下,对信息对象有了基本了解和认识,可以对其价值进行评估,从而决定信息的取舍。
交互:
包括与编目人员和用户之间的交互。
元数据在结构上呈现出一定的开放性,允许使用者自行设定、调整元素,建立不同元素间的关系,设定检索点,构造规范档;同时不断吸取用户的反馈意见,调整自己的元数据标准。
二、描述元数据规范的设计原则
1、调查分析
制定元数据规范要从三个方面的调查分析入手,即:
1)著录者,指专业和非专业编目人员,还包括管理者;
2)使用者,指数字图书馆的用户;
3)著录对象,即被描述的资源。
其中,首先要明确的是著录对象及其著录对象之间的关系。
一个将被元数据描述的对象往往是一个较为复杂的复合对象。
以拓片为例,在数字图书馆中,一张拓片还会有拓片原器物和若干拓片图像。
那么该拓片对应的复合对象就是复合了拓片本身、拓片原刻、拓片数字图像。
是对复合对象进行著录还是对某个具体的对象著录关系到元数据的结构和具体元素的设计。
在元数据规范的制定过程中,要充分考虑著录者、使用者的需求和著录对象的特性,并在其间做一最佳平衡和组配。
2、在此基础上要遵循的几组最基本的原则是:
简单性与准确性原则:
简单性主要指设计的元数据标准在著录实践时应较为简单,易于掌握,尤其要考虑到著录人员除编目员外,更多的是相关专业人士,如古籍专家、地理学家甚至研究生等。
但一味追求简单性易导致标引不够精确,会降低检索结果的准确度和精度,因此,同时要考虑到简单化可能导致的不准确,需在二者中作一权衡。
专指度与通用性原则:
由于元数据应用的各类资源的各自特性不尽相同,著录深度(如书目、内容和插图等)和广度(指相关联的一组文献作总体著录)不尽相同,因此,无法只使用一种元数据标准,需要根据具体的资源实体来确定相应的元数据标准。
另一方面,必须考虑元数据标准在一定范围内的通用性。
互操作性与易转换性原则:
元数据的互操作性体现在对异构系统间互操作能力的支持,即在我们设计的各种元数据标准下建立的元数据,不仅能方便地为自己建立的各相关应用系统所操作,还应尽可能地为其它组织或机构所建立的应用系统所操作。
在具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其它系统常用的元数据。
这要求在设计元数据标准时要非常慎重地考虑元数据标准定义的元素的语义定义和元数据结构两个重要的方面,其中与目前较为通行的、被广泛支持的元数据标准——如DublinCore等——的语义定义一致更为重要。
可扩展性原则:
由于数字图书馆将要处理的数字资源非常广泛,而各类应用背景更为复杂,元数据标准只能提供最广泛意义上的描述,一些特殊应用背景的性质内容并不纳入。
但一些具体应用可能会要求更为细致精确的描述,应允许使用者在不破坏已规定的标准内容(如元素的语义定义)的条件下,扩充一些元素或属性值。
元数据标准中应为这种应用提供指导性原则。
用户需求原则:
制定元数据标准的目的是想向用户更好和更充分地揭示信息资源,因此用户需求应作为最终的权衡标准。
特别是在结构与格式的设计、元素的增加与取舍、语义规则的制定等方面,要尽可能地从用户的角度出发,增加系统与用户间的交互渠道(如开放式的词表系统的使用、增加提供用户反馈的元素等),为用户提供多层次的检索体系(如GIS技术的采用)。
三、描述元数据的基本结构、元素组成与扩展规则
1、基本结构
由核心元素、资源类型核心元素、个别元素三部分组成。
核心元素:
在各类资源对象中通用,拟在该层上与其它系统进行交换,支持通用的检索工具。
资源类型核心元素:
根据资源对象特点、参照其它元数据标准制定,在同一类型数字资源中通用,例如古文献资源类型可包括古籍、拓片、舆图、地方志、家谱等,这些对象互相可有通用的核心元素,如版本元素。
不同的资源类型可有不同的元素设置及其语义定义,应用时要求遵守本资源类型的相关规则和定义。
个别元素:
以某种类型的资源对象为基础制定,仅适用这类对象,不用于交换。
应用时仅要求该对象遵守其定义。
每个元素向下扩展时采用子元素的扩展方式,不推荐使用修饰词。
注:
建议不采用修饰词的理由:
1)修饰词采用了“向上兼容”的定义原则,即修饰词的语义包含于未修饰的元素中,在范围上,对未来修饰词的语义进行限定,在深度上对未修饰的元素的语义进行延伸。
这样,在使用修饰词可以象使用未修饰元素一样使用。
如果具体到XML的记录格式时,修饰词的地位相当于未修饰元素的一个属性。
2)修饰词不能解决元素之间的联系问题。
例如,描述古籍的抄刻情况时,抄刻时间,地点,责任者都是应该描述的,而且在最后展示给读者的时候也应该是能表示它们之间的关系。
如果使用子元素这个问题就很好解决。
子元素描述的是元素语义的一部分。
2、元素组成
1)核心元素集
复用DublinCore的15个元素做为核心元素集,但仅采用“简单DC”(simpleDC),不推荐使用“限制性DC”(qualifiedDC)。
复用DC的核心元素时,应严格遵守其元素语义定义。
核心元素集中元素的语义不允许有交叉。
核心元素并非必备元素,允许只复用一部分。
不同类型和不同资源的元数据标准可以根据对象特点,制定各自所需的子元素或限定词,但必须与本框架中核心元数据集的语义定义保持严格一致。
如果复用“限制性DC”中的限定词(qualifier),必须说明并严格遵守其语义定义,否则视为自定义。
2)资源类型核心元素集
3)个别元素
举例如下:
核心元素(14个)
古文献核心元素(3个)
个别元素
元素名称
与DublinCore的对映
根据资源对象(拓片、古籍、舆图、家谱、地方志等)情况制订
名称
Title
版本(Edition)
主要责任者
Creator
物理特征(Physicaldescription)
主题/关键词
SubjectandKeywords
出版项(Publication)
资源描述
Description
其它责任者
Contributor
日期
Date
资源类型
ResourceType
资源形式
Format
资源标识
ResourceIdentifier
来源
Source
语种
Language
相关资源
Relation
时空范围
Coverage
权限管理
RightsManagement
古文献核心元素定义:
▪版本:
关于版刻、版本、影印的说明及相关信息。
▪物理特征:
物理外观信息,如数量、尺寸、载体形式、装订等。
▪出版项:
出版信息,包括出版地、出版者、出版时间等。
注:
关于核心元素集复用DC元素“资源形式”(format),子项目组规定其值为:
电子图书,期刊论文,会议论文,学位论文,古籍,拓片,舆图,家谱,地方志,视音频资料,网络资源。
此元素为必备。
3、扩展规则
1)元数据的横向扩展规则应遵守核心元素、资源类型核心元素、个别元素的结构组成;
●各元数据标准应最大可能采用核心元素集推荐的元数据项,并在语义上保持严格一致;
●对推荐的元素不能描述的特性可以增加元素,但新增加元素不能与已有元素有任何语义上的重复。
2)元数据的纵向扩展规则:
为了更为准确地描述对象,允许向下再设一层子元素;
●子元素间语义是不重叠的,合起来不能超过元素定义的内涵;
●子元素不可再分。
四、描述体系与定义方法
1、描述语言与语法结构
本节描述的内容不属于某一元数据标准本身,是元数据在计算机应用系统中的表示方法和应用标准,这些方法和标准是为实现计算机系统中元数据的互操作与数据转换而应采用的描述语言及相关语法。
实际应用中,互操作性体现在多个层次上,对元数据而言,不仅依赖于元数据本身对被描述对象的描述方法定义,也依赖于异构系统间所交换或操作的数据的具体描述语言及相关语法。
凡在本框架下制定的元数据标准使用时应遵循以下规定:
1)采用XML语言及其相关语法结构作为元数据描述的元语言,并作为相关应用系统必备的对外数据接口。
2)RDF作为一个资源描述的标准框架,能方便地容纳各类元数据标准,建立一种复合的面向异构系统的数据交换格式。
本项目各应用系统应支持对RDF格式数据的解析。
3)元数据的XML格式语法定义方法采用XMLSchema或DTD。
2、定义方法
即元素哪些方面的属性应该被定义,采用与DublinCore一致的方法,即采用ISO/IEC11179标准,按以下10个方面定义元素:
–名称(Name):
元素名称
–标识(Identifier):
元素唯一标识
–版本(Version):
产生该元素的元数据版本
–注册机构(RegistrationAuthority):
(注册元素的授权机构)
–语言(Language):
元素说明语言
–定义(Definition):
对元素概念与内涵的说明
–选项(Obligation):
说明元素是限定必须使用的还是可选择的(必备性)
–数据类型(Datatype):
元素值中所表现的数据类型
–最大使用频率(MaximumOccurrence):
元素的最大使用频次(可重复性)
–注释(Comment):
元素应用注释。
用于说明子元素情况。
子元素也参照这个方法定义,并在注释项说明其父元素。
为了便于广泛使用,元数据标准应该定义尽量宽泛。
因此,上述十个属性中的可以做如下固定取值:
1)版本:
1.0?
2)语言:
中文
3)注册机构:
?
?
?
4)数据类型:
字符串
5)最大使用频率(可重复性):
不限
6)选项(必备性):
可选
在元数据标准的文档中,需要指出此标准适用的资料类型,此种对象时需要描述的特点,也就是各个元素的定义和元素的特性,有如下几个方面:
1)“名称”:
元素的名称。
2)“标识”:
元素唯一标识
3)“定义”:
此元素描述此种类型资料的那些特性
4)“注释”:
元素的属性,子元素的设置,与其它元数据规范的映射
五、元数据应用的相关规则
下列内容不是元数据规范的正式内容,但任何机构在使用某种元数据规范时都要根据自己的具体情况在如下几个方面做出选择。
下面给出本项目在使用元数据规范时需要确定的一些相关规则:
1,著录规则
在不破坏元素语义前提下,不同类型的信息资源可以有自己的元数据规范及相应的著录规则,即要给出针对某类信息资源时各元素应著录哪些内容,取值范围(数据类型在元素定义中已规定),如何处理各类特殊事项,有何著录范例等。
本手册强调客观著录。
著录规则与元数据标准不同。
元数据标准的目的是描述一种特定类型的信息资料,一般来说元数据规范定义一系列元素,这些元素说明了此类型资料的特性。
著录规则是进行著录工作时的要遵守的规则,是在元数据规范之下的具体实施方法。
著录规则规定了元素的内容和属性的具体设置、取值和特征。
在著录规则中可以规定如下项目,并与元数据规范中的元素定义保持一致:
项目
作用
元素名称
元素的必备性
元素的可重复性
著录内容
说明此元素描述了资料的哪些特性。
元素的属性
属性名称,属性的取值,属性的必备性,可重复性
子元素
元素内容或者是一个或多个子元素,或是单个字符串。
在元素的内容方面,可以包括子元素在此元素中出现的必备性,可重复性,以及取值的限制等。
与其它元数据规范的映射
其他注释
例如使用哪种规范,词表等
著录范例
范例:
元素名称:
出版项
著录内容:
著录古籍版本抄写刻印的时间、地点、责任者。
地名照录原书;抄写刻印时间(中历纪年)以中国朝代、帝号、纪年的顺序著录。
如遇增刻、修版、后印等情况,重复本元素,并根据实际情况,在相应的子元素中,分别著录增刻、修版、后印等的时间、地点、责任者名称。
抄写虽非严格意义上的出版,但也是古籍流传的一种重要方式,故抄写事项也可视同出版事项,著录于此。
必备性:
有则必备
可重复性:
可重复使用
属性:
名称=“抄刻类别”,必备,不可重复
属性名称取值:
“抄刻类别”的取值有“抄写”,“刻版”,“印刷”,“增刻”,“补刻”,“补版”,“修版”等。
子元素:
时间(中历纪年):
必备,不可重复
时间(公元纪年):
必备,不可重复
地点:
必备,不可重复
责任者:
必备,不可重复
规范档:
朝代著录见“朝代著录规范表”。
DC元素映射:
Publisher,出版者;Date,日期
DC修饰词映射:
Publisher,出版:
Name,出版者名称;Place(oraddress),出版地
著录范例:
例1:
刻版:
时间(中历纪年):
清光绪31年
时间(公元纪年):
1905
地点:
武昌
责任者:
崇文書局
2,规范档
常见的包括:
人名、地名(如古今地名对照表)、时代(如中国历史纪年与公元纪年对照表)规范档、主题词表、分类法。
注:
1)人名、地名、时代规范档以对照表的形式出现,其意义主要表现在:
不再刻意强调著录意义上的规范控制,而是在达到客观著录目的的基础上,利用加强相关检索方法的能力的方式为用户提供准确和完整的检索结果。
2)主题词表可以采用开放式词表技术,充分吸取用户的检索用词,通过积累分析,由专业人员利用相关应用工具生成。
3)分类法:
不同的元数据标准可以采用不同的分类法。
3,检索说明
检索说明:
查重标准,是否生成拼音检索,排序原则,索引抽取原则,是否是单独的检索入口,是否采用其它相关技术(如词表技术、GIS技术等)
六、设计流程与工作规范
1,初步设计阶段
1)资源分析
对资源对象各方面进行详细的调查分析,包括对资源本身的分析调查,对资源管理者、使用者的需求调查等。
这里所说的资源对象,是一个复合对象,即一个抽象的对象集合体,包括原始对象、对象复制品、数字复制品,这些不同的载体形态称为一个对象实例。
例如,对拓片对象而言,包括原刻、拓片本身、数字拓片,它们都是一些具体的对象实例。
该步骤结束时应完成《资源分析报告》,其应包含的内容详见第七部分“文档规范”。
2)初步设计
这一步骤的任务是提出针对某类型和某具体资源对象的《元数据规范》(草案),其出发点包括以下几个方面:
●《资源分析报告》;
●其他国内外机构对相似资源制定的元数据标准分析;
●本手册第一至第四部分。
本步骤结束时应完成《元数据规范》(草案)及各《资源类型核心元素集》。
3)联机著录实验准备
完成《元数据著录实验系统需求及子系统需求框架》。
2,征求意见期
1)手工著录检验
组织专业和非专业编目人员进行试验著录,以检验《元数据规范》(草案)设计的合理与否。
2)征求意见
广泛征求专家意见,特别是在各工作小组的“工作计划”中列举的参加单位中详细征求意见。
3)完成《元数据规范》(初稿)
修改《元数据规范》(草案),完成《元数据规范》(初稿),其应包含的内容详见第七部分“文档规范”。
4)联机著录实验准备
完成各《著录子系统需求方案》。
3,开放试验期
1)应用规则建立
参照本手册第五部分,制订一系列应用规则,以便于著录工作的进行和控制数据质量,其详细内容见第七部分“文档规范”。
2)建立著录实验系统
根据:
●各《元数据规范(初稿)》
●《元数据著录实验系统需求及子系统需求框架》
●各《著录子系统需求方案》
建立试验著录系统和网络试验著录环境。
3)联机著录试验
邀请其他单位的同行(主要是各工作小组《工作计划》中的参加单位)参加网络环境下的著录实践,请各机构提交一定数量的数据,以充分收集意见,各意见汇总成《元数据规范著录试验报告》,其应包含的内容详见第七部分“文档规范”。
4)修改各《元数据规范(初稿)》,形成各《元数据规范(修订稿)》,修改著录实验系统。
4,公开应用期
以各工作小组《工作计划》中的参加单位为基础,广泛征求更多的机构参加著录实验,由各参加机构提交《元数据规范最终鉴定报告》,并在此基础上对元数据规范再做修订,形成《元数据规范》(推荐稿);
七、文档规范
1、《资源分析报告》,内容包括:
●该资源对象的定义和特点,对象间及对象实例间的关系分析;
●著录单位、著录范围、著录内容(项目)的确定;
●使用和检索需求,即用户希望从哪些方面、什么途径去检索,第一步最希望获得什么等。
这部分内容的搜集分析直接影响检索点的设置和检索结果的反馈。
●目前国内外关于本资源是否有可复用或可参考的元数据规范。
2、《资源类型核心元素集》,内容包括:
●资源类型的名称及包含数字对象;
●资源类型核心元素集的组成(包含哪些元素);
●元素定义:
严格遵照本手册第四部分“定义方法”撰写;
●元素的扩展规则。
3、《元数据规范》(含草案,初稿,修订稿,推荐稿),内容包括:
●规范说明:
i.规范名称、版本
ii.规范责任单位(子项目组)、起草单位(具体单位名称)
iii.规范起草日期、修订日期
iv.是否复用了其它元数据规范。
●著录对象的分析
v.著录对象分析,包括定义及其范围界定;
vi.著录对象之间的关系;
vii.著录单位。
●元数据的结构
viii.核心元素;
ix.资源类型核心元素;
x.个别元素;
xi.属性与子元素的说明。
●各机构应用时的扩展规则。
●元素定义
严格遵照本手册第四部分“定义方法”,可对有固定取值的属性部分集中描述说明,再分别说明每个元素的其它属性。
4、《著录子系统需求方案》,内容包括:
5、相关应用规则,主要包括:
●著录规则:
遵照本手册第五部分中的“著录规则”编写有关内容;
●检索点、索引与查重定义:
在著录实验阶段,因数据量有限,这部分内容可以简化,以避免系统过于庞大,影响检索效率;
●规范档的使用说明:
哪些元素使用规范档,规范档的名称等;
●与其它专门元数据规范元素集之间的映射表。
6、《元数据规范著录试验报告》、《元数据规范最终鉴定报告》,主要包括:
●参加元数据著录实验的机构名称及所提交的数据数量;
●元数据规范的著录对象、著录单位是否符合需求;
●元数据的结构是否合理;
●元素及其属性、子元素的定义、应用的问题及修改意见;
●元数据规范的整体评价:
如,规范是否可用等;
●著录实验系统修改意见;
●其它内容。
参考文献:
1.肖珑,陈凌等.中文元数据标准框架及其应用.大学图书馆学报,2001,19(5)
2.吴建中等.DC元数据.上海:
上海科学技术文献出版社,2000年
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 专门 数字 对象 描述 数据 规范
![提示](https://static.bdocx.com/images/bang_tan.gif)