浅谈数据密集型数据资源云平台的构建.docx
- 文档编号:714184
- 上传时间:2022-10-12
- 格式:DOCX
- 页数:6
- 大小:22.55KB
浅谈数据密集型数据资源云平台的构建.docx
《浅谈数据密集型数据资源云平台的构建.docx》由会员分享,可在线阅读,更多相关《浅谈数据密集型数据资源云平台的构建.docx(6页珍藏版)》请在冰豆网上搜索。
浅谈数据密集型数据资源云平台的构建
浅谈数据密集型数据资源云平台的构建
美国《福布斯》杂志称如今,在浏览新闻网站或者是参加行业会议时,想看不见或听不到大数据这个词几乎是不可能的,大数据已经成为产业界、科学界和政府部门等各界的关注热点。
近几年来,《Nature》、《Science》等国际顶级学术期刊相继出版专刊来推动大数据的研究,中国、美国等多国政府也展开了对大数据的研究部署工作。
产业界已经率先认识到大数据所蕴含的海量价值及其战略意义,Amazon、Google、IBM等IT巨头纷纷探索应对大数据的解决方案,云计算逐渐成为他们共同的探索方向。
科学界也逐步意识到大数据的影响,认为随着大数据时代的到来,科学研究已经进入数据密集型科学研究(Data-IntensiveScienceResearch)阶段,科学范式的转变成为科学界的研究重点。
本文探讨了数据密集型科学研究的内涵和特征,以及科学界面临的挑战,并构建了数据资源云平台以帮助科研人员应对数据密集型科学研究中的问题。
1数据密集型科学研究的内涵及其特征
数据密集型科学研究是直接从海量数据中发现科学规律的一种研究范式,是在大数据环境下对实验科学、理论科学和模拟科学的继承与发展。
它由三个基本活动组成:
科学数据的采集、管理和分析,其数据来源主要有大型国际实验,跨实验室、单一实验室或个人观察实验,个人生活等。
在这一新的科学研究范式中,先利用科学仪器或者模拟方法采集数据,然后通过计算机软硬件设备进行数据的管理和分析,将处理分析后的数据、信息和知识存储在计算机中。
信息科学贯穿科学活动的始终,而科研人员对数据的审视是在整个科学活动中比较靠后的步骤才开始的。
数据密集型科学研究作为科学大数据环境下科学研究的新发展,具有以下三个特征:
(1)数据驱动,而不是假设驱动。
传统阶段,实验科学、理论科学和模拟科学能够获得和使用的数据相对匮乏,只能采取假设驱动型研究方法,首先根据前人研究成果和自身知识进行假设,然后通过设计实验、理论推导或者是计算机模拟等定义好的方法获取相关数据,对假设进行检验。
而现在科学研究已经从数据缺乏时代过渡到数据泛滥时代,数据密集型科学研究不需要模型和假设,科研人员的关注重点也从我要怎么验证这个假设转变为我能从这些数据中发现什么关联,数据成为科研活动的起点和驱动力。
(2)强调可重复性。
科学研究是人类认识世界、改造世界的重要手段,保证科研结果的可靠性和真实性是科学研究的前提,而可重复性是检验科学研究结果可靠性和真实性最有效的手段。
在数据密集型科学研究中,技术的进步使数据传播速度更快、范围更广,产生的影响也更大,所以为了更好地保障科学研究的可信赖性,必须更加重视科研活动的可重复性,从而尽快识别出错误的或者弄虚作假的科研结果,将负面影响降至最低。
(3)相关关系,而不是因果关系。
数据密集型科学研究通过对科学数据的分析和挖掘,直接从科学数据中发现科学规律,认识事物的相关关系,其精髓在于客观,但不能像实验科学、理论科学和模拟科学那样检验逻辑上的因果关系。
然而科学研究是人类认识世界的手段,其目的不仅是发现科学规律,还要探索规律运行的本质原因,得到相关性之后还需要结合前三种科学方法解释因果性。
数据密集型科学研究是对前三种科学的继承与发展,将其作为一个新的、科学探索的第四种范式,具有重大的价值和意义,当然也面临一些新的挑战。
2数据密集型科学研究面临的挑战
2.1科学数据层面的挑战
科学数据面临来自诸多方面的挑战,但从研究的角度来说,根本挑战在于其规模性、复杂性和特异性。
(1)规模性是科研大数据最明显的特征,也是科研人员所面临的首要问题,主要表现在原始数据的规模性和数据增速的规模性:
①原始数据的规模性。
科学研究是持续性的活动,传统科学已经产生海量数据积累,如澳大利亚的平方公里阵列射电望远镜项目自开展以来,每天都能产生好几个千万亿字节(PB)的数据;②数据增速的规模性。
随着科研人员的研究方法和研究仪器越来越先进,科学研究能够生成和获取的数据量越来越多,数据量的增长速度已经超过了数据存储能力的增长速度,导致数据存储和处理能力与日益增长的数据量之间的矛盾愈加尖锐。
(2)复杂性是科研大数据的重要特征,给科学数据共享造成巨大困难,主要表现在数据类型的复杂性和数据结构的复杂化:
①数据类型的复杂性。
美国国家科学委员从科研研究类型角度将科学数据分为4个基本类别:
预测型、计算型、实验型和记录型,这种划分方式模糊了具体学术活动下所收集到的数据类型的复杂性。
计算机技术和科学方法的进步使科研人员能够获得的数据类型愈加复杂化,如核磁共振成像、基因序列、电子显微镜数据等形式;②数据结构的复杂性。
传统科学数据主要以结构化的方式存储在关系型数据库中,但是随着科研人员获取数据的渠道和方式的多样化,非结构化数据成为科学数据的主流形式。
与结构化数据相比,非结构化数据的组织更加凌乱、复杂,给数据处理和共享带来挑战。
(3)特异性是科学数据区别于其他数据的关键特征,对科学数据共享和学术信息交流提出挑战,主要表现在认识的特异性和价值的特异性:
①认识的特异性。
由于科学数据与客观世界相分离,对科学数据的认识必然带有主观性,数据采集者认为是数据的采集物,接受者可能不这样认为,观测数据或者模拟数据可能是、或者顶多是供述的证据②价值的特异性。
科学数据作为一种可重复利用的非消耗性资源,其价值增值需经过科研人员的利用来实现。
影响科学数据增值程度的因素有两个,一是科学数据本身的价值,决定理论上的最大增值程度;二是数据使用者的能力,决定实际增值程度,而科学数据的交流和共享能够实现数据的多方利用,促使科学数据价值产生指数增长,所以如何实现科学数据共享成为科学界亟需解决的问题。
2.2科学研究层面的挑战
首先,科研人员缺乏将数据转化为知识的意识和方法。
一方面,科研人员没有意识到科学数据的价值特异性,绝大部分科学数据会随着科研人员的退休、项目的结束等原因被遗弃,无法被其他人员使用。
另一方面,数据密集型科学研究具有无参考性,科学研究方法需要从传统的假设驱动变为数据驱动,科研人员必须培养数据敏感性,以数据为本,转变自己的研究方法以实现数据价值最大化。
其次,科研人员缺乏设备和技术支持。
目前科研项目呈现金字塔型分布,第一层项目能够得到国际财团机构或国家科学基金会的资助,获得超级计算和存储资源,而占大多数的第二层和第三层项目所获得的资助相对有限,数据密集型科学研究的资源需求难以得到满足。
科研人员无法平等地获取保证项目所需的资源支撑,延缓了知识创新进程,不利于科学的持续发展。
最后,数据共享方面存在阻碍。
一方面,不同地域、不同学科之间缺乏统一的交流平台,虽然科学研究的地理分布性和跨学科性不断加剧,但仍有接近87.5%的数据未能形成数据源以供科研人员利用。
另一方面,数据共享在具体实施层面,会涉及到各方面的利益,政策、制度等因素导致原始数据、研究方法等无法实现真正共享,跨国项目在此方面的问题尤为突出,因此,科学交流体系的完善值得引起科学界和国际方面的关注。
3云计算在数据密集型科学研究中应用的必要性分析
云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式,Gartner公布的2014年的技术成熟度曲线,CloudComputing正处于泡沫化的谷底期,已经度过了最危险的期望膨胀期,人们对云计算的认识逐渐趋于理性和成熟,业界也不再热衷于炒作云计算概念,而是将实现云计算的成熟和规模应用作为努力的方向。
Gartner的2014年十大技术和趋势评选中的个人云时代、规模IT都属于云计算的应用,云计算真正与实际应用和环境融合,实现从探索向应用转变,成为大数据时代个人和企业进行数据管理的必然选择。
在对数据管理的使用和认识上,很多科学领域都落后商业领域至少10年,云计算在商业领域的广泛应用对于科学领域具有借鉴意义,将云计算应用于数据密集型科学研究中具有可行性和必要性。
第一,帮助科研人员应对科学大数据规模性带来的存储挑战。
超大规模是云计算最基本的特点,其底层由数十万台乃至数百万台的服务器集群组成,如Google云计算中心已经具有几百万台服务器,云计算中心通过运维管理、资源管理等机制整合和管理这些庞大的计算机集群,具备了海量数据存储能力,能够有效地应对科学大数据的规模性。
此外,云计算采取横向扩张方式,即增加更多的逻辑单元资源,与传统通过增加单个逻辑单元资源性能的纵向扩展方式相比,横向扩展方式具有成本低、部署周期短、灵活性强等优势,能够更好地应对科学大数据增速的规模性。
第二,为科研人员提供面向非结构化数据的弹性计算能力,以应对科学大数据的复杂性。
MapReduce作为云计算系统中的关键数据处理组件,具有两个核心理念:
一是将问题分而治之,分布式处理是面对海量数据时的首要选择;二是移动计算而非移动数据,避免数据传输过程中产生的大量通信开销。
MapReduce的设计初衷就是面向海量非结构化数据的处理,部署在海量基础设施之上,使云计算具有能够应对科学大数据规模性和复杂性的强大计算能力。
结合虚拟化技术在云计算中的成功应用,云计算可以根据用户实际使用情况对资源进行动态分配,及时满足用户对计算资源需求的变化,帮助科研人员应对突发情况。
第三,实现数据的长期保存和可获得性,为科学数据共享提供保障。
科学数据按照科研活动过程来划分可以分为原始数据、推导和组合数据、文献,这些数据是数据密集型科学研究的核心要素,因此必须保证科学数据的完整性、安全性和可获得性。
云计算中心具有完善的保障措施,在硬件方面采用了计算节点同构可互换、网络和能源方面的冗余设计等措施,软件方面采用了多副本容错、心跳检测等技术来保证数据的可获得性和安全性。
而且科学数据由云计算提供方统一管理,打破了原有数字资源分散的局面,有利于资源的有效流通、利用和共享,实现科学数据的价值特异性。
第四,为科研活动建立统一平台,使所有科研人员可以平等享有各种服务。
服务是云计算的核心理念,也是云计算与传统的并行计算、分布式计算、网格计算的一个关键区别。
云计算是为了让用户能够平等、透明地使用云计算资源,就像使用水电这样的生活基础设施一样便捷。
云计算通过向用户提供统一的一体化平台,将传统的应用集成概念延伸为服务集成,从而将数据采集服务、数据存储服务、数据管理服务、数据处理服务、数据参考咨询服务等资源和服务能力集成到云计算系统中。
4数据资源云平台的构建
然而云计算技术并不能提供完整和通用的解决方案,为了满足可重复性、数据共享等需求,需要运用信息资源管理领域相关技术,才能在更大程度上帮助科研人员应对科学大数据的挑战。
因此,数据资源云是以云计算为基础,以数据密集型科学研究为主体,以信息资源管理相关技术为补充,以数据为核心,以科学活动过程为导向,以数据服务为目标的服务平台。
4.1云基础服务平台
云计算基础服务平台是整个数据资源云的基础,将物理基础设施按照云计算平台标准构建而成,为上层服务提供硬件支持和环境保障,科研人员可以充分利用平台提供的软硬件设施便捷地构建出大规模应用。
其中虚拟化技术是实现科研人员在使用数据资源云时如同使用本地资源一样的关键技术,它能够对计算资源、存储资源、网络资源、科研设备等进行分配封装,向用户提供接口,以虚拟的形式提供给科研人员使用。
科研人员可以将他们保存在本地磁盘的数据转移到数据资源云中,交给专业人员进行集中管理,实现数据的长期保存,还可以通过接口访问和使用各种大型仪器设备,平等获取项目所需资源。
4.2科学数据处理与服务层
4.2.1科学数据处理
鉴于数据密集型科学研究的特征,数据资源云并非按照传统的思路进行构建,而是遵循数据驱动的理念,以数据为起点,经过科学数据资
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 浅谈 数据 密集型 资源 平台 构建