电子图书馆异构系统联合检索整合方法研究.docx
- 文档编号:7092996
- 上传时间:2023-01-17
- 格式:DOCX
- 页数:6
- 大小:22.37KB
电子图书馆异构系统联合检索整合方法研究.docx
《电子图书馆异构系统联合检索整合方法研究.docx》由会员分享,可在线阅读,更多相关《电子图书馆异构系统联合检索整合方法研究.docx(6页珍藏版)》请在冰豆网上搜索。
电子图书馆异构系统联合检索整合方法研究
电子图书馆异构系统联合检索整合方法研究
摘要:
首先提出当前电子图书馆由于系统异构造成的兼容问题,然后就Z39.50、OAIPMH和OpenURL等协议及标准对整合异构系统及所含资源的作用和效果进行详细分析,并就使用OAIPMH协议进行系统整合的步骤和方法加以说明,最后对电子图书馆的联合检索应用前景进行总结和展望。
关键词关键词:
电子图书馆;异构系统;OAIPMH协议;联合检索
中图分类号:
TP301文献标识码:
A文章编号文章编号:
16727800(2014)005002504
基金项目基金项目:
武汉市市属重点高等学校科学研究项目(2010024);香港德坤泰印书馆资助项目(HRBS0302)
作者简介作者简介:
杨威(1981-),男,硕士,武汉软件工程职业学院计算机与软件学院讲师,研究方向为情报学、病毒学。
0引言
随着网络的普及,互联网上积累了大量资料,除了部分专业图书馆收藏的电子资料以外,还有相当数量的资料是随着互联网的扩展而产生的。
理论上来说,资料越丰富则被利用的概率越高[13],但另一方面,由于信息量呈爆炸趋势增长,资料将变得越来越分散,动态性也越来越强,信息检索对于普通使用者而言则更加困难。
因此,现代电子图书馆的一个重要研究方向就是如何整合、系统化检索方式,供读者使用。
其中面临的一个重要问题就是系统异构造成的通信困难。
本文将试图探讨这一问题,并提出相应的解决方法。
1检索协议技术要求
1.1Z39.50协议的优缺点
图书馆界曾有一个Z39.50信息检索协议,当时很好地解决了异构系统的信息检索难题。
但该协议是建立在统一MARC格式基础上的,即所有电子图书馆的网络系统无论用什么,其资料格式均必须使用MARC格式,否则不兼容Z39.50协议,也就无法实现整合检索。
除此之外,编目规则也要一致,必须符合Z39.50协议要求。
显然用该方式构成的电子图书馆系统虽然在操作、检索上使用了异构系统,但其数据结构已经被人为地统一化了,所以从根本上解决了异构问题。
此外,由于利用了各图书馆OPAC的虚拟联合目录(VirtualUnionCatalog,VUC),用户可以很方便地建立自己的检索目录和资料库。
这是Z39.50的优点。
Z39.50协议的缺点也很明显。
随着技术的发展,有更多比MARC格式好的存储方式被不断开发出来,很多新建的电子图书馆不再使用单纯的MARC,有时甚至有多达几十种不同格式的资料存在。
不同格式意味着不同的文件管理方法以及随之而来的不同检索方式,但用户是不会理会这些技术困难的,他们永远希望技术对他们是透明的,可以用一个统一的系统或界面实现搜索功能,获取各种不同类型的资料。
于是图书馆界乃至整个信息技术界开始了新的研究,并发展出OAIPMH、OpenURL等新的协议或标准。
1.2异构电子图书馆系统通信需求
从目前的工作实践来看,异构电子图书馆之间若要实现无障碍通信,需要满足以下6个条件:
1.2.1计算单位互通
例如各个电子图书馆的服务器使用的CPU、GPU等部件,应能支持远程访问操作。
这样,读者可以方便快捷地在不同图书馆服务器上存取资源。
而要实现计算单位互通,需要各服务器提供统一的语言协议和事务协议。
1.2.2效率必须不低于现有统一格式的服务网络
异构系统为了实现对用户读者的透明化,必须对用户消除异构特征,即通过某些特殊运算,将不同类的系统进行虚拟统一,使用户以为使用的是统一格式的系统。
这些特殊处理肯定会涉及到系统的额外开销。
通过一定的优化措施,可以使异构系统虚拟统一后的效率等于或高于现有的统一格式的服务网络。
否则用户会因为速度明显变慢而失去耐心,并最终放弃对新系统的支持。
1.2.3检索语言统一
图书馆是为公众服务的机构,不能要求读者去学习不同的检索语言、适应不同的检索环境。
因此需要异构系统具有统一的检索语言,至少在语法方面不能有过多差异。
1.2.4为将来扩充留下余地
这里的余地更多是指为将来可能会有的新的系统类型留下接口。
这样即使有未知系统出现,并加入到服务网络中来,也可以很快兼容,而不需对现有系统作太多改变[13]。
1.2.5实现成本相对较低
异构系统的整合实质上是在已有的电子图书馆系统上做整合工作,因此若所需成本过高,将会伤害图书馆本身参与此项工作的积极性。
1.2.6实现分布式存储
不同图书馆在藏书方面有自己的偏好,因此可以减少重复建设,在节省资源的同时还能在各个专业方向做到精和深。
在此基础上,只要实现分布式存储,就可以让读者只用一个终端即可享受全面丰富的电子资源。
2异构系统所需通信协议
Z39.50协议是最早解决图书馆资源统一检索的协议,但如今已不能满足图书馆建设和读者查询检索的双方需求,因此OAIPMH、OpenURL等协议、方法应运而生。
2.1OAIPMH协议
OAIPMH协议的基本原理如图1,通过对资料进行摘要,从而让各自独立的应用程序实现相互通信。
图1OAI工作原理
图中的扩展程序对用户屏蔽了数据库结构、数据格式本身的差异,而将问题留给了更加底层的数据库本身。
用户使用OAI协议输入的检索语句会被应用程序按所辖数据库本身进行解释,转换成对应的特殊语言(如SQL等)。
用户输入一般使用http协议(因为浏览器是最易得的),而返回给用户的输出则一般以XML形式组织。
OAIPMH协议将服务器明确分为两个部分,用户服务部分和数据库。
一般的图书馆系统在加入此协议时可以选择扮演其中某一个角色,也可以两者的任务都承担,但这一般只有较大的电子图书馆才能做到。
在OAIPMH协议中用户服务部分通常会使用一类叫做摘要程序的应用程序。
摘要程序会将OAIPMH协议标准命令发送到各个资料存储服务器,然后将返回的摘要作为查询结果返还给用户。
为提高检索效率,OAIPMH协议中使用了索引。
如此一来,OAIPMH协议做到了格式对用户透明,统一了用户界面和检索语言,并拥有较好的检索效率。
2.2OpenURL标准
OpenURL即所谓开放链接,是一种用于解决资料系统相互不兼容问题的方法,目前已形成了一套完善的技术标准。
用OpenURL可以很好地进行资源整合,这是因为OpenURL标准中的URL是带有元数据信息和资源的地址信息,使得URL可以作为独立的应用程序来运行[2],于是二次文献动态链接到原文的服务问题就迎刃而解了。
使用OpenURL标准意愿最强烈的就是图书馆行业,因为其电子在线服务可通过使用OpenURL设置链接解析器,从而只用浏览器和网页就能实现所需服务。
2.3从Z39.50协议到OpenURL的关联
Z39.50协议在图书馆界历史悠久,应用广泛。
因此根据第一节所述6个条件中的成本考虑,要推广OAIPMH协议则必须实现其与Z39.50协议的兼容。
这在技术上不难实现,因为Z39.50协议所辖的文件格式是统一的。
简单地说,OAIPMH协议只完成了两个工作:
对所辖资料构建目录和索引、运行和维护相关应用程序。
它甚至不包含应用程序和数据库,因为它仅仅是将不同的应用程序加上了一套统一的“外壳”,并指导各种程序用合适的方法读写不同格式的数据库。
而Z39.50协议有一个致命问题,即语法复杂且各系统不统一。
一个直接的后果就是不同图书馆由于采用了不同的检索系统,虽然都支持Z39.50,但得到的结果不尽相同,而且其中还有错误项。
造成这个问题的根本原因是Z39.50没有在协议中对语法进行严格规定,当时出于兼容系统的考虑目前看来是一个错误。
其次是Z39.50没有考虑到某些图书馆服务器因故不能上线的可能,从而导致用户的资源开销无辜增加。
2.3.1OAIPMH与Z39.50比较
显然,要实现兼容,OAIPMH协议必须克服上述缺陷。
因此,现将OAIPMH和Z39.50两种协议进行全面比较,如表1所示。
表1OAIPMH与Z39.50的比较
1Z39.50协议1OAIPMH协议输出方式1被动输出1被动输出系统间通信方式1联合通信1摘要是否包含检索协定1是1否是否提供非同步检索功能1是1视系统而定是否提供多个下行线路间的同步通信1是1视系统而定传输协议1无特殊限定1HTTP协议资料说明格式1MARC或DC1XML
实现成本1资料提供方(图书馆):
高1资料提供方(图书馆):
低1服务器资源:
高1服务器资源:
中等从表1中看出,OAIPMH和Z39.50两种协议不能相互替代,因为其设计初衷不同,实现方法不同,所以只能实现联合服务,而不是单纯地由OAIPMH协议进行简单的替换工作。
因此,数据库建设也不能非此即彼,而要做到OAIPMH和Z39.50两种协议都兼容。
虽然提高了建设难度及成本,但仍然是可行的。
2.3.2OAIPMH和Z39.50协议简单兼容方法
一个简单的兼容方法是在网桥或网关上使用Z39.50协议,使用Z39.50的服务器则可以处理OAIPMH命令,实现变相的OAIPMH检索。
而OAIPMH处理后的摘要就可以作为输出,返还给读者。
2.3.3OAIPMH和OpenURL
OAIPMH协议自上而下的层次分别为[4]:
(1)OAIComformant:
OAI的标准协议集合,定义了所有数据库应该支持的协议。
(2)OAIRegistered:
已注册的OAIPMH系统。
该注册是在OAIPMH官网上实现的,注册用户需提供一个baseURL,如果符合OAIPMH协议则通过,并由OAIPMH协议维护其数据库。
(3)OAINamespaceRegistered:
资料在数据库中的命名规则。
这个规则要符合OAIPMH协议规定,具体来说由以下3个属性组成:
①oai:
此字段标明数据库的命名规则遵循协议;②:
资料所在数据库在OAIPMH注册系统中的唯一标识;③:
数据库名。
该方式很好地规范了OAIPMH协议,使之和OpenURL标准达成一致。
各种资源都可以通过和在互联网上进行定位,符合OpenURL的要求。
在OpenURL被NISOAX建立时,就是为了做出一个框架作业标准。
因此,使用OpenURL架构的服务器,都需要在NISOAX做一个注册,并共享其资料。
这个标准在互联网上得以广泛接受,并最终成为了电子图书馆必须遵从的标准之一。
NISOAX在2002年建议将OpenURL和OAI整合,具体的做法就是在OpenURL注册上使用OAIPMH的协议标准,这样OpenURL解析服务器可以及时地更新和获取最新的资源信息摘要,提高服务效率。
从这个角度上看,OpenURL和OAIPMH也是采取联合服务的模式进行整合的。
3使用OAIPMH协议整合异构图书馆数据库方法一个不可逆转的趋势是线上资源数量会无限制地增长。
电子图书馆的馆藏量也会以比传统图书馆高得多的速度增长,因此必须对馆藏资源进行有效管理。
简单地说,就是要优化各图书馆的数据库存储,提高检索效率,减少冗余。
3.1摘要和摘要目录
摘要是对资源的一个简要描述,这个描述是站在读者查询资料的角度实现的,因此带有一定的主观性。
摘要的用途可以分成三类:
帮助检索、帮助资料库(即数据库)通信和帮助建立索引。
而摘要目录则是对已有摘要进行的一个编目,方便不同系统的检索。
显然,摘要目录也是一个数据库,其中的每一个元组对应一个摘要。
如果让各图书馆分别建立摘要数据库,一定会造成又一次的不统一,从而影响整合工作。
那是不是就要对摘要和摘要目录进行严格的统一标准呢?
其实这是不需要,也是不可能的[5]。
综上所述,摘要是带有主观色彩的,各个图书馆由于所处立场、读者群不同,其摘要标准肯定千差万别。
用一个静态标准去管辖主观认知是不可能的,即使真的可行,牺牲的也是各个图书馆的自主性和特色,这样就限制了学术自由。
因此,整合摘要工作需要做的只是如何去“翻译”不同图书馆之间的摘要。
3.2用OAIPMH协议整合数据库方法
用OAIPMH协议进行数据库整合,离不开摘要的帮助。
由于摘要具有通信能力和良好的可扩展性,是OAIPMH非常擅长处理的信息模式。
各图书馆只需将自己的数据库进行摘要和编目,然后按照通用的摘要格式提供给OAIPMH服务器即可。
OAIPMH服务器在之后的工作中则只需考虑检索本身的技术实现过程,而不用关注具体的资源类型。
具体整合步骤如下:
(1)在OAIPMH协议中规定摘要的术语集。
这一步是基础,相当于让不同图书馆学习使用一个通用语言,便于日后交流。
(2)在OAIPMH协议中规定摘要的统一格式。
摘要的格式统一,是通过将摘要视作若干属性组成的集合,属性的数据格式、顺序要一致,并且要符合第一步中所规定的术语集。
(3)设立丰富的摘要参照案例。
不同图书馆仍会在统一术语集和格式后做出不一样的摘要,虽然我们鼓励各图书馆有自己的特色,但仍然希望对同一资源的描述不要相差太远。
因此需要设立相对丰富的参照案例,类似法律中的判例。
当不同图书馆的描述发生矛盾时,以参照案例为判定依据。
(4)数据处理。
这是根据用户、图书馆的要求,对数据库进行读写操作的过程,也是整合异构图书馆系统的目的所在。
(5)修正完善。
整合过程中,会不断发现问题并解决问题。
好的系统应该有自学、自我优化的能力,从而能做到越用越快、越用越准。
这个过程需要人工的时常干预,更需要在系统设计的最开始即赋予系统本身自动优化的能力。
3.3已有成果
当前已有大批电子图书馆(包括在线资料库)使用了OAIPMH协议兼容模式,整合了各自的资源,完成了联合检索功能。
从目前使用情况来看,检索效果良好。
这些电子图书馆(资料库)包括:
大英简明百科全书(H05)、大英百科全书线上资料库(H06)、世界美术资料库(E01)、科学月刊合订本资料库(L02)等。
而牛津大学图书馆在线等大型图书馆也正在就OAIPMH协议兼容工作进行系统升级。
相信不久的将来,世界大小电子图书馆、在线资料库都会相互联通,普通读者可以在世界上任何一个有浏览器和互联网接入的终端上检索、获取所需的任何资料。
4结语
首先要肯定的是,目前已采用OAIPMH协议的电子图书馆在联合通信、用户体验等方面表现相当不错,但也面临以下几个问题:
①动画、视频类资料无法使用OAIPMH协议检索;②商学类资料库由于服务器组织形式特殊且复杂,对OAIPMH协议兼容性很差;③中文语义理解尚需改进;④OAIPMH协议仍缺乏一套最佳的优化管理措施,在大规模检索过程中效率没有较Z39.50协议有明显改善。
基于上述分析,本文对在电子图书馆中采用OAIPMH协议提升检索效能的技术发展,提出以下展望:
(1)OAIPMH协议尚需建立一套合理的协调、通信机制。
由于各图书馆仍是独自完成建设工作,因此软、硬件环境还是异构的,即使兼容OAIPMH协议也会有各自不同的理解和侧重点。
因此需要一个凌驾于协议之上的协调机制,对资料库进行最基本的约束,这样才能更好地进行通信和联合检索。
(2)应建立一个基于OAIPMH协议的系统开发行业标准。
软件开发商不同于图书馆,是系统的制造者,提供成熟的系统供图书馆使用。
因此,若希望OAIPMH协议能够得到进一步推广,需建立起一个基于OAIPMH协议的系统开发行业标准,以指导系统开发人员的工作,而图书馆本身则无需考虑具体系统的构成和工作原理。
(3)更多图书馆会参与到异构系统整合工作中来。
各图书馆由于长时间的运行工作,其系统环境区别很大。
异构系统实现兼容整合是一件复杂的系统工程,但整合资源,提供优良的检索、阅读服务是大势所趋[13]。
因此会有更多的图书馆、资料库积极投身于这项工作,最终实现全球图书馆的大联合,让任何地方的读者都能享受一致而优质的服务。
参考文献参考文献:
\[1\]杨威.Privacyindustryandprotection:
informationsecurityagainstintelligencecollection[M].香港:
德坤泰印书馆,2013:
116119.
[2]杨威.电子化图书馆资料的多重属性问题和相应对策[J].图书馆理论与实践,2008
(2):
1516.
[3]杨威.在电子图书馆文献资源优化中应用预测型线性规划及思考[J].图书馆理论与实践,2010(6):
58.
[4]杨志刚.KBART:
知识库与相关工具――UKSG与NISO合作探讨OpenURL供应链数据问题[J].图书情报工作动态,2010(8):
2728.
[5]胡芳,刘露.基于EDI的高校图书馆异构系统资源整合的研究[J].图书馆学研究,2010(9):
5053.
(责任编辑:
黄健)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子 图书馆 系统 联合 检索 整合 方法 研究