元数据基本策略研究.doc
- 文档编号:234250
- 上传时间:2022-10-07
- 格式:DOC
- 页数:9
- 大小:19KB
元数据基本策略研究.doc
《元数据基本策略研究.doc》由会员分享,可在线阅读,更多相关《元数据基本策略研究.doc(9页珍藏版)》请在冰豆网上搜索。
“医药卫生科学数据管理和共享服务系统”是国家科技基础条件平台科学数据共享工程的重要组成部分,该项目将整合基础医学、临床医学、公共卫生和中医药学等医药卫生领域的数据资源,创建一个物理上分布、逻辑上统一的医药卫生科学数据管理和共享服务系统,为政府卫生决策、医疗保健和科学研究提供数据共享和信息咨询服务。
元数据是关于数据的数据,是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及相互关系,从而确保这些数字化信息能够被计算机及其网络系统识别、分解、提取和分析归纳的一种框架或一套编码体系。
元数据标准是科学数据共享的核心。
制定元数据标准时,通常是重用已有的合适的元数据标准,采用选择、修改或重新定义等方式匹配组合多个元素。
但仅采用标准中的元素通常不能完全满足实际需求,还需要自定义一些特殊元素¨。
医学科学数据的主要特点是数据量巨大、内容繁杂、形式多样、散在分布。
因此,深入研究各种已有元数据,制定适用于我国医学数据共享的元数据标准,是完成“医药卫生科学数据管理和共享服务系统”建设任务的关键。
本文通过对多种元数据标准的分析和比较,提出制定我国医学元数据标准的基本策略和基本流程。
1制定医学元数据标准的基本策略目前,国外医学科研的原始数据在互联网上主要以医学专业数据库和医学专业数据库群的形式共享。
在国内,多年来国家和地方政府用公益资金支持的研究项目,包括科技部历届五年计划的重大疾病攻关项目、专项资助项目、国际合作研究、全国性大规模各种疾病的调查、诊断治疗规范、多中心临床试验等生成的数据构成了医学科学数据的主体。
我国医药卫生科学数据管理和共享服务系统是基础与临床相结合,预防与治疗相结合,中医与西医相结合,普通医学和特种医学相结合的大型、综合、公益性项目。
为此,必须密切联系实际,明确制定适合我国国情的医学元数据标准的策略。
下面对几种已有的元数据进行分析。
1都柏林核心元数据都柏林核心元数据(以下简称Dc)是元数据的一个标准集——都柏林核心元素集的简称。
DC元数据标准是为描述网络资源、支持网络检索而建立的元数据模式,用以提高网络信息资源的开发利用率。
Dc元数据规范是1995年3月由美国俄亥俄大学图书馆中心(OcLC)与美国超级计算机应用中心联合发起,52位来自图书馆界和电脑网络界的专家共同研究制定的。
都柏林核心元素集被认为是描述网络资源最少需具备的项目。
总共有15个着录元素,分为3个部分:
内容描述部分(Title、subject、Description、s叫rce、、CoveH弹、Type);知识产权部分(creator、Publisher、cont曲utor、;外形描述部分(Date、Fonnat、hnguage、。
由于DC具有简易性、语义互用性、国际一致性、灵活性、全面性和可扩展性等特点,因此被广泛用于多个学科领域元数据制定的基础。
1.1DC在医学领域中的应用目前,国外应用DC制定的医学元数据主要包括以下几种怛’31:
医学元数据的Lifescience,Medicine数据库直接采用Dc元数据格式和美国国立医学图书馆医学主题词表(MesH)。
元数据规范美国国立医学图书馆的元数据规范直接复用的8个元素;将Dc的一些限制属性定义为元素;扩展了Dc的限制属性,并定义为元素;根据医学资源的特点扩展了8个新元素。
医学核心元数据为提高医学文献检索的专指度,美国俄勒冈州医学院研究的医学核心元数据项目(McM)在DC基础上开发了一套元数据及编码规则,并用MesH描述主题。
复用了Dc的15个元素;对部分限制属性进行了限制;增加了两个限制属性;定义了一些自己的规范,如资源类型模式。
有35种资源类型和模式。
法语健康资源目录和索引主要包含循证医学资源、教学资源及病人信息和公共健康方面的资源。
cIsMeF使用两种标准工具:
MesH和Dc元数据格式。
复用了以下种元数据集:
(1)DC元数据元素集,用来描述所有有关健康的资源,复用了DC的11个元素,形成了个新元素;
(2)IEEEl484学习对象元数据,用来描述教育资源;(3)描述循证医学的元数据,用来对资源内容进行控制;(4)卫生资源发现、描述和评鉴语言元数据集,用来增强资源的透明度、可信度和质量。
1.2DC的局限性由于DC最初是为了描述一般网络信息资源而设计的,所以它的15个元素相对较简单,用来描述医学科学数据等复杂、特殊信息对象时则存在一定的局限性。
例如,Dc不能揭示资源间的相互关系;对于资源的安全、确认等考虑不够;采用关键词描述主题对于资源描述相对来说就显得简单有余,而精确不足;在数据质量控制方面,DC没有规定资源描述的依据,不利于保证描述内容的一致性,也带来检索可靠性问题。
2地理信息元数据地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其他特性的一类数据H]。
从历史的角度看,地理信息系统已经积累了大量不同格式的数据,因此越来越多的国家、国际学术团体和公司认识到,元数据技术特别是标准化的元数据在有效地管理数据即在实现地理信息数据共享中具有重要的作用。
国际标准化组织(IsO)作为全球标准的权威机构,对地理数据标准化问题一直很重视,并在年成立了ISO/TC211技术委员会,专门从事于研究和建立地理信息标准。
1996年9月,ISO地理信息元数据标准1.0版本问世。
IS0/TC211制定这一标准的目的是通过建立元数据术语、定义以及扩展的公用集合,来方便用户直接定位、评估、提取和使用地理数据。
TC211是按照国际标准化组织制定的标准导则要求制定的,它适用于数据集编目、数据交换网络以及数据集的详尽说明。
该标准是迄今最为完整,也是最为复杂的元数据标准方案。
它的制定,影响到许多国家的地理信息元数据标准的制定和实施,并进而对全球数据管理和服务产生很大影响。
2.1地理信息元数据标准框架/FDIs19115地理元数据标准由标准化和信息化两部分组成。
其中,标准化部分定义了描述了地理信息时所必须遵守的规则,规定数字化地理数据发行时必须具备标识信息、数据质量信息、空间参照系信息、空间表示信息、特征和属性信息、发行信息以及元数据参照信息等元数据元素,并对描述数据集时所需的其他可选元素和特征的集合进行了明确的定义。
该元数据标准还为用户设计了一个扩展标准的方法,便于用户根据需求增加新的元数据。
信息化部分通过提供应用指南和示例说明等方法来帮助和指导用户更好地理解该标准。
通过认真的分析、研究和比较,我们发现医学元数据从结构上可以仿照地理信息元数据标准划分为核心元数据标准、全集元数据标准和专用标准3个层次。
而且,ISO/FDIs19115地理信息元数据中绝大部分元素项均可用于医学元数据标准的制订,即使是专门用于地理空间信息描述的元素项也可以在流行病调查和疾病防治数据的描述中发挥作用。
2.2地理信息元数据标准在医学领域的不适用性地理信息元数据标准虽然非常系统、完整,但相对Dc的结构来说有些过于复杂。
在依据此标准设计的元数据管理系统中,未经培训的普通用户难以完成全部项目的着录,即使是专业人员也时常会感到困难。
因此,不能把整套地理信息元数据标准照搬到医学领域,必须对其进行改造,以满足基础医学、临床医学、公共卫生和中医药学数据共享的需要。
3基本策略通过对上述几种元数据标准的研究和分析,我们提出必须在强调简单性、实用性、准确性、专指性、通用性、互操作性、易转换性、可扩展性与复用性的基础上,将都柏林核心元数据和地理信息元数据有机地结合在一起,参照国外已有的医学元数据规范,借鉴其他元数据的优点,制定我国医学元数据标准。
只有这样才能有利于医学数据共享系统的稳定性、可扩展性和实用性,有助于尽早实现医学数据共享的目的,为政府机构、医药卫生工作人员和广大公众提供基础性、公益性医药卫生信息和健康咨询服务。
制定医学元数据标准的基本流程.1确定医学元数据的功能元数据标准设计首先需要确定利用元数据实现哪些功能。
通常,应当考虑实现的功能包括描述、检索、选择、定位、管理、评估和交互等多个方面。
医药卫生元数据内容必须包含科学数据共享核心元数据;应定义完整描述一个医药卫生领域具体对象所需要的数据项集合、各数据项语义定义和着录规则等;应提供有关医药卫生科学数据的标识、内容、分发、数据质量、数据表现、扩展、数据模式、限制和维护信息;要适用于医药卫生领域数据集元数据整理、建库、汇编、发布和查询。
医学元数据标准的制定有利于提高数据库建库质量和描述质量,促进数据加工的规范化、标准化,实现数据交流与共享。
2医学元数据格式及内容编码规则的选取在选择医学元数据格式时,首先要考虑的是自行设计新的元数据格式还是选用已有的元数据格式。
考虑到元数据格式规范设计和长期维护的复杂性以及国际化环境和互操作的需要,一般选择国际通用的、成熟的元数据格式。
3医学数据资源调查分析制定元数据标准应当从3个方面的资源调查分析人手,即:
着录者(包括专业和非专业着录人员及其管理人员)、使用者(指共享数字化资源的用户)和着录对象(被描述的数据资源)。
在标准制定过程中,要充分考虑前两者的需求和后者的特性,并在其间寻求最佳平衡和组配。
在对资源各方面进行详细调查和分析之后,应写出《医学数据资源分析报告》。
4医学元数据标准的初步设计确定规范性引用文件,提出针对医学数据资源的《医学元数据标准草案》。
医学元数据规范性引用文件包括:
科学数据共享元数据内容标准,数字化影像和通讯标准(DIcOM),国际疾病分类代码第10版.10),通用操作术语代码(c阴),医学系统化术语学系统(sNOMED),实验室观察结果标识符名称和代码系统(LoINc),诊断相关分组(DRGs),统一医学语言系统(uMLS),国际医学术语(IMT)等。
5手工着录检验组织专业和非专业着录人员进行试验性着录,以检验《医学元数据标准草案》设计得是否合理。
该步骤以手工着录方式进行,完成后形成《手工检验报告》。
6修改《医学元数据标准草案》
根据《手工检验报告》完成《医学元数据标准草案(修订版)》。
该修订版需要反复修改,可能会有多个版本。
7建立应用规则在《医学元数据标准草案(修订版)》和《医学数据资源分析报告》基础上提交相应文档,形成《医学元数据应用相关文档汇编》,作为建立实用系统的依据。
8建立试验着录系统根据《医学元数据标准草案(修订版)》和《医学元数据应用相关文档汇编》建立试验着录系统和网络试验着录环境。
修订版)》、《医学元数据应用相关文档汇编》和系统多次修改、实践后,形成较为正式的《医学元数据标准(推荐稿)》,作为正式标准的第一版。
9制订元数据标准应用的相关规则医学元数据标准在应用过程中还需要根据实际情况提出元数据使用的相关规则,包括着录规则、是否采用及采用何种规范文档(人名、地名、时间)以及检索说明等。
结语研究表明,在基于互联网的数据共享解决方案中,元数据是实现数据发现、数据转换、数据管理和数据应用的最重要的工具和方法之一。
目前,元数据的发展呈多元化格局,已知的元数据达几十种之多。
有专门针对某类资源的,如档案资源的元数据标准EAD、地理信息的元数据标准FGDc、图书文献资源的元数据标准MARc21、电子出版的元数据标准EPMS,也有跨行业的通用元数据标准Dc以及多媒体元数据标准MPEG.7等。
元数据格式虽然发展迅速,但尚未形成国际公认的标准,不同的元数据有其应用的不同领域,且兼容性不强。
今后的发展趋势是各种规范的元数据都能够根据一定的原则共存,互助互动,相互补充。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基本 策略 研究