大数据在科技教育与信息领域的应用CNKI.docx
- 文档编号:8162582
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:7
- 大小:24.58KB
大数据在科技教育与信息领域的应用CNKI.docx
《大数据在科技教育与信息领域的应用CNKI.docx》由会员分享,可在线阅读,更多相关《大数据在科技教育与信息领域的应用CNKI.docx(7页珍藏版)》请在冰豆网上搜索。
大数据在科技教育与信息领域的应用CNKI
大数据在科技、教育与信息领域的应用
侯冬梅1,谷雨2,谷新胜1
(1.北京青年政治学院计算机系,北京100102;
2.加州大学洛杉矶分校教育信息学院,加利福尼亚90095)
摘要:
随着当前社会数字网络信息化进程的加快,大数据已成为学术研究、科学实验、市场商务、医疗机构和人类日常生活学习的重要组成部分。
文章针对大数据对科技、教育研究、计算机软件发展的推动作用,阐述大数据的主要特征、发展历程和应用领域,指出中国与其他国家在大数据方面的应用特点以及对科技创新和国际竞争力的深远影响。
关键词:
大数据;4V;数据量;存储量;数据分析;超级计算机;社交数据
1背景
在信息技术领域中,大数据指的是一系列复杂而巨大的数据库,由于其复杂性,人们已无法用传统的手工数据库管理工具或者数据处理应用程序收集和处理数据。
大数据对传统数据库管理工具和处理应用程序提出的挑战主要包括收集和策展、存储与共享信息、数据分析和可视化。
目前,应用大数据集的趋势是往越来越实用的方向发展[1]。
很多单一的大数据集中相关数据推导出的额外信息与单独的小数据集具有相同的数据总量,但可以帮助研究人员发现表面并不相关的事务和人类的相关性。
例如,IBM给维基百科创建一个可视化的编辑系统,这个系统在容量、文本和图像方面都充分体现了大数据的特点,是一个大数据的典型例子[2]。
截至2012年底,只有艾字节(Exabytes)数据可在一定时间内被有效处理。
在气象、基因学、神经学、复杂的物理模拟以及生物和环境研究领域,科学家经常受到大数据量的限制。
数据集尺寸不断增大,主要是因为收集数据的信息感应移动设备无处不在,从天线的感觉技术(遥感)、软件日志、摄像头、麦克风到无线射频识别阅读器和无线传感器网络[3]。
世界人均存储信息的能力自20世纪80年代以来,每3年增加一倍。
截至2012年底,每天世界各地产生的数据大约是一千多万PB。
一枚无线射频识别阅读器与一粒大米的尺寸对比如图1所示,它内部的电磁场会在外部识别器的感应下将重要信息输入系统。
很多商店都将此种设备安装在商品之内,只有在收银台付款之后,商家才会给商品“消磁”,以防止物品被盗。
通常情况下,使用关系型数据库、桌面统计和可视化软件很难处理大数据。
处理大数据需要大规模并行运行的软件在成百上千台服务器上同时运行。
大数据的变化不仅仅取决于管理数据结构的设置和容量,还取决于在其领域中处理和分析数据的应用程序的容量。
对于一些组织和企业来说,第一次面对数百上千兆字节的数据,可能会使这个组织开始重新审视其数据管理功能需要。
对于其他组织和机构而言,可能需要计算数十或数百TB的数据,才会将数据的大小作为重点考虑的因素[4]。
2大数据的特征及发展历程
大数据主要具有以下特点:
一是数据体量巨大(Volume);二是数据种类繁多(Variety);三是实时性强,处理速度快(Velocity);四是通过分析和提取的大数据有很高的商业价值(Value)。
以上是大数据的4V特性。
大数据的4V特性如图2所示[1]。
(1)体量巨大,如一个监控摄像头每日拍下的数据可达到6PB(Petabytes)。
(2)种类繁多,产生的数据量大,但可供使用的、有价值的数据量相比较小。
例如,某乳品厂在奶牛身上佩戴健康状况传感器,每天通过互联网传输的数据量巨大,但只有200MB的数据可供乳品厂的研究人员使用,以鉴别奶牛的健康状况。
(3)处理速度快,应用程序接口每秒往谷歌和其他社交软件发送信息超过150463次。
(4)商业利用价值,如刚收集到的数据体量很大、很繁琐,没有商业利用价值,但可以在分析后将其变成有商业利用价值的数据。
大数据通常包括能够在较合理的时间之内,大小超过常用的软件工具能够采集、保存、管理和处理的数据集。
针对大数据不断变化的特点,科学家引进大数据平台处理日益剧增的数据量。
一个叫做MIKE2.0的开放信息管理系统,定义了大数据的一些主要特征,如有用的排列、复杂性和删除单个记录难度[5]。
在2001年的研究报告和相关讲座中,META集团(现为Gartner公司)分析师道格·尼首先提出了数据增长的“3V模型”,即大容量、高速率、高变化率。
Gartner公司和业内的许多同仁至今仍然用“3V模型”描述大数据的主要特征。
在2012年,Gartner公司重新定义了大数据的概念:
“大数据是高容量、高流速和多种形式的需要新的数据处理模式的大量数据集,对于这些数据的处理和分析,可以有效地促进企业决策、新成果发现以及流程优化等信息资产”[3]。
最近,大数据学术界又提出一个最新的“4V”模型,对于第4个“V”的解释,各专家众说纷纭,具体选择哪种解释需要取决于研究的对象。
总体来讲,这些“V”主要是针对“大”而言,大数据将成为未来生活、学习和双物运营的主要标准模式[6]。
3常见大数据应用举例
大数据的实例在我们的日常工作及生活中屡见不鲜,主要包括网络日志、射频识别、传感器网络、社交网络服务、社交数据、搜索引擎索引等几个方面。
3.1网络日志(Blog或Weblogs)
Blog是继Email、BBS、ICQ之后出现的第4种网络交流方式,是网络时代的个人“读者文摘”,是以超级链接为工具的网络日记。
Blog的产生代表了新的生活、工作和学习方式。
一个Blog其实就是一个网页,通常由经常更新的简短帖子构成,这些帖子都是按照年份和日期倒序排列。
大部分Blog是个人发表,其他Blog则是一群人基于某个特定主题或共同喜好进行的集体创作。
具体来说,博客(Blogger)概念解释为使用特定的软件,在网络上出版、发表和张贴个人文章的人,他们通过网络日志与人分享自己的生活、学习和工作,增广见闻。
从功能来看,分为文字博客,如新浪博客、博客中国等;图片博客,如拉风网、Fotoblog等;移动博客,如万蝶移动博客;视频博客,如酷6网、土豆网等。
3.2射频识别(RFID)
射频识别即RFID(RadioFrequencyIdentifi-cation)技术,又称电子标签、无线射频识别,是一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学接触。
RFID技术中衍生的产品大概有3大类:
无源RFID产品、有源RFID产品、半有源RFID产品。
无源RFID产品是发展最早,也是发展最成熟、市场应用最广的产品,如公交卡、食堂餐卡、银行卡、宾馆门禁卡、二代身份证等,在我们的日常生活中随处可见,属于近距离接触式识别类。
RFID读写器也分移动式和固定式两类。
读卡器无线电信号通过无线电频率的电磁场,把数据从物品的标签上传送出去,以自动辨识与追踪该物品。
某些标签在识别时从识别器发出的电磁场中就可以得到能量,并不需要电池;也有标签本身就拥有电源,可以主动发出无线电波。
标签包含了电子存储信息,数米之内都可以识别。
与条形码不同的是射频标签不需要处在识别器视线之内,也可以嵌入被追踪物体之内。
许多行业都运用了射频识别技术,如将标签附着在一辆正在生产中的汽车上,厂方可以追踪此车在生产线上的进度,汽车上的射频应答器也可以用来征收收费路段与停车场的费用。
此外,某些射频标签还附在衣物、个人财物上,甚至植入人体之内。
3.3传感器网络(SensorNetworks)
无线传感器网络(WirelessSensorNetwork)是综合微电子技术、嵌入式计算技术、现代网络及无线通信技术、分布式信息处理技术等先进技术而构建的新型网络,具有近距离、低复杂度、自组织、低功耗、低数据速率、低成本、高可靠性等特点,能够实时监测、感知和采集网络覆盖区域中各种环境或监测对象的信息,并对其进行处理,将处理后的信息通过无线方式发送,以自组多跳的网络方式传送给观察者。
传感器网络将客观世界的物理信息同传输网络连接在一起,在下一代网络中将为人们提供最直接、最有效、最真实的信息。
此外,无线传感器网络具有十分广阔的应用前景,能应用于军事国防、工农业控制、城市管理、生物医疗、环境检测、抢险救灾、危险区域远程控制等领域。
3.4社交网络服务(SocialNetworkingServices)
社交网络服务也称为SNS,是为各类有相同兴趣爱好的人建立的网上社区。
这类服务完全基于网络,为用户提供各种沟通、交流的方式,如电子邮件、即时消息等。
多数社交网络提供多种让网友互动的模式,如聊天、影音、分享图片和文档、建立讨论群组等。
社交网络服务的产生为信息交流与分享提供了全新、快捷的途径。
社交网站通常会有超过百万的用户,使用社交网络已经成为他们每日生活的一部分。
社交网络服务网站在各个国家种类不同,全世界最知名的是基于美国的Facebook,MySpace和Twitter;在中国大陆地区,社交网络服务网站主要有新浪微博、人人网、开心网等。
3.5社交数据(SocialData)
社交数据是一种新型的通过网络技术收集的客户数据,即数以百万的人通过积极参与在线社交活动而集体产生的信息。
例如,某人希望买一台新的笔记本电脑,但又犹豫不决,他可能会在他所参与的社交网络服务网站上,给好友群发一条公开信息“希望大家能够给我推荐一个实用性能好,价格又适中的笔记本电脑!
”这个人在此社交网络服务网站上可能有超过几百个好友,大家纷纷分享自己的经验和见解,这些信息都叫做“社交数据”。
社交数据主要有以下3个特点[6-8]。
(1)用户自愿公开的信息。
通过社交服务网站,用户分享日常的工作和生活,这些信息都是用户自愿分享在自己或别人的网页上。
(2)代表自然状态下的信息。
社交数据的这一特点对于市场营销手段十分重要。
例如,某食品公司即将推出一种新蛋糕,需要做大量市场调查,传统模式是市场营销部门组建“用户测试组”,让大家品尝这种新蛋糕,然后评价口感,但这种模式的主观性太强,测试组中的用户可能会因为某种原因而不讲实情;而通过社交数据信息收集的对某种产品的评价则相对客观,因为这些信息是用户在与自己社交网络上的好友交流时自然流露出来的。
(3)采集数据非常容易。
社交服务网络后台的编程人员可用2小时编写几个检查程序,很快可以把成百上千用户分享的社交数据收集起来,供市场营销人员使用。
3.6搜索引擎索引(SearchEngineIndexing)
搜索引擎索引通过收集、分析和存储数据提供方便快速和准确的网上信息检索。
这种索引的设计采用了很多跨学科的概念,如语言学、认知心理学、数学、信息学、物理学以及计算机科学的理论和知识。
搜索引擎索引也称互联网索引,热门互联网索引可以通过关键字搜索文章、书籍、新闻等,同时视频、音频和图形也是经常被搜索的网络引擎。
事实上,搜索引擎的索引就是利用用户键入的词组搜索文档矩阵的具体数据。
它利用很多不同种类的模型,如倒排索引、签名文件、后缀名等,但研究表明目前最有效的搜索引擎所用模式是倒排索引。
倒排索引是实现“词组—文档矩阵”的一种具体存储形式,通过这种形式,用户可以输入几个词组,然后快速获取包含这个词组的文档列表。
倒排索引主要由两个部分组成:
词组词典和倒排文件[8]。
其他常用大数据的领域包括呼叫详细记录、天文学、大气科学、基因学等,还涉及很多复杂的跨学科研究领域,如生物地球化学、生物科学等。
此外,军事侦察、医疗记录、摄影档案、影像档案、大规模的电子商务数据也是大数据的典型例子。
4科学研究、政府部门、私营企业、软件市场等与大数据的密切联系
4.1科学研究
大数据在科学研究领域应用的最典型例子当属美国斯隆数字巡天数据库,斯隆数字巡天(SloanDigitalSkySurvey,简称为SDSS)从2000年开始收集天文数据,在最初的几个星期内,斯隆数字巡天收集的数据比在天文学史上收集的所有数据都多。
它以每晚约200GB的速度收集数据,截至目前,SDSS已经积累了超过140万亿字节的信息。
大型综合巡天望远镜,也就是SDSS的继任者,将会在2016年联机,预计该望远镜能够在5天之内,收集斯隆数字巡天系统过去收集的数据总和,这已经改变了我们对宇宙详细目录的认识。
4.1.1大型强子对撞机(LHC)
2010年,大型强子对撞机(LHC)的4个主要探测器(LargeHadronCollider,简称LHC)产生13PB的数据,其中最著名的是欧洲核子研究中心的大型强子对撞机,该对撞机的照片最初刊登在纽约时报的科技专栏,当时在大数据学术界引起了很大轰动。
4.1.2解码人类基因组
解码人类基因组原本花了10年时间,现在,通过大数据技术解码人类基因可以在一个星期内实现。
4.1.3未来取向指数
托比亚斯·普雷斯带领的一队科学家对谷歌搜索趋势(GoogleTrends)数据进行了分析,发现人均国内生产总值较高的较发达国家的网民与GDP较低的不发达国家的网民相比,在谷歌上搜索关于未来信息的概率更大。
根据研究结果推测,国民的网上行为与现实世界的经济指标之间可能有密切联系。
美国的一组科学家收集了45个国家2009年、2010年和2011年的谷歌查询记录数据,分别计算出2009—2010年、2010—2011年以及2011—2012年的谷歌搜索量比例,称这个比例为“未来取向指数(FutureOrientationIndex)”[8]。
科学家将“未来取向指数”与每个国家的人均GDP进行比较,发现用谷歌搜索更多关于未来信息的互联网用户国家更可能是人均GDP高的国家。
这一研究结果也暗示了一个潜在的、有趣的联系:
国家的经济发展成功与否可能与其公民捕获大数据的信息搜索行为之间有密切关系。
4.2政府部门
2012年3月,美国政府宣布“大数据的研究和发展计划”,探讨如何利用大数据的研究解决政府面临的重要问题。
该计划制定84种不同的大数据研究项目,分别在6个联邦机构和部门进行。
政府为这个项目投入了2亿多美元[2]。
目前,全世界一共有10台可以采集和分析大数据的最强大的巨型计算机,美国联邦政府拥有6台,占全世界超级计算机总数的60%。
世界主要超级计算机排行榜见表1[1]。
4.3私营企业
世界各大私营企业和银行信用卡系统通过对大数据的分析,不但为客户提供更好的服务,而且为这些机构未来的发展方向奠定夯实的市场营销和信息管理基础,具体案例如下。
(1)沃尔玛超市集团每小时采集到数据库中的客户信息超过2.5PB,这个数据量是美国国会图书馆馆藏所有书籍包含信息的167倍。
(2)目前,Facebook社交软件平台需要处理用户上传的超过400亿张的照片。
(3)美国个人信用评级系统(简称FICO)的防止信用卡欺诈检测系统,通过对信用卡持有者个人、地理以及购物信息的严密分析和管理,时刻保护着全世界超过4百亿用户的账户信息[1-2]。
4.4软件市场
大数据的兴起令市场对信息管理专家的需求量不断增加,很多软件公司如甲骨文、IBM、微软、SAP、惠普等都平均花费超过150亿美元雇佣专门人员负责数据管理和分析。
数据管理这个行业的自身价值已超过100亿美元,并以每年10%的速度增长,增长速度是整个软件行业增长速度的一倍。
越来越多的发达经济体使用数据密集型技术。
1990—2005年,全球超过10亿的人口步入中产阶级,这些人同时也推动了信息产业发展。
全世界通过电信网络可以传输的数据量在1986年只有281PB,到1993年,这个量已达到471PB。
2000年2.2EB的数据到2007年能够增长到65EB。
预计到2013年底,全世界每年通过互联网处理的信息量将会超过667EB[5,8]。
4.5信息处理技术
国防部高级研究计划局的拓扑数据分析程序,旨在研究大规模数据集的基本结构。
大数据需要特殊的信息处理技术,才能够有效地在合理时间段内处理大量数据。
2011年麦肯锡报告显示,这种信息处理技术包括A/B测试、关联规则的学习、分类、聚类分析、众包、数据融合和集成、集成学习、遗传算法、机器学习、自然语言处理、神经网络、模式识别异常检测、预测模型、回归分析、情感分析、信号处理以及时间序列分析和可视化[6]。
其他应用到大数据中的信息处理技术包括大规模并行处理数据库、基于搜索的应用程序、数据挖掘技术、分布式文件系统、分布式数据库、基于云的基础设施。
一些MPP关系型数据库具有监控、备份和优化RDBMS数据库中大型数据表的能力。
大数据分析过程的从业者普遍不看好运行速度较慢的共享存储,他们更偏好各种形式的固态硬盘(SolidStateDisk,简称SSD)以及并行处理节点中的高容量SATA磁盘。
专家普遍认为共享存储架构,也就是SAN和NAS,运行缓慢、运行结果复杂、价格昂贵。
这些特点不符合大数据分析系统对系统性能、基础设施和低成本的需求。
实时或近实时信息传递是大数据分析的主要特征之一,因此延迟现象一定要避免。
内存中的数据很好,但正运行在FCSAN连接另一端的数据却不理想[5,7],处理和分析SAN数据应用程序的成本远高于其他存储技术。
大数据分析的共享存储既有优点又有缺点,截止2011年,多数大数据分析从业者并不认为大数据分析的共享存储是个好主意。
4.6研究活动
在4.2节中提到美国政府于2012初进行全国性大数据倡议[9],美国政府不但对此倡议投资巨大(2亿美元),同时还涉及6个联邦机构和部门以及美国国家科学基金会和各大研究型高校、研究所的参与。
美国国家科学基金会颁发给加州大学伯克利分校AMP实验室的“探险计算”研究基金,包括超过1000万美元历时5年的研究经费。
同时,AMP实验室也收到美国国防高级研究计划署的资金和十几个企业赞助商提供的大量研究经费,主要用于分析大数据的研究项目,利用实验室对大数据的研究与分析预测交通状况、治疗和抗争癌症的方法。
大数据倡议还包括由美国能源部以及劳伦斯伯克利国家实验室牵头、耗资2500万美元、历时超过5年建立的SDAV研究所。
该研究所汇集6个国家实验室及7所高校的专家和学者开发新型工具,以帮助科学家在国家能源部的超级计算机上分析、管理和实现数据的可视化[2,9]。
2012年5月,美国马萨诸塞州宣布“大数据倡议”,由州政府和私人企业为各种研究机构提供资金,研究有关大数据的项目。
美国麻省理工学院在计算机科学和人工智能实验室内主办英特尔科技和大数据中心,将政府、企业和高校的研究基金相互结合,支持关于大数据的研究[9]。
5结语
笔者从大数据的4V特性出发,全方面地描述并分析大数据在科学技术、教育信息和生活医疗方面的应用,同时也指出国际各大科技强国在大数据研究和应用方面的最新研究成果。
人类对大数据的应用发展速度惊人,如由中国国防科技大学研制的天河二号计算机,已于2013年6月打破了美国和日本在超级计算机方面的垄断局面,成为世界上最快的超级计算机。
我们还可以进一步将中国在大数据方面的成果与西方国家进行深入研究和对比,并根据对比成果对各大高校未来培养大数据时代的计算机人才提出宝贵的建设性建议。
第一作者简介:
侯冬梅,女,教授,研究方向为计算机应用,houdm0422@。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 科技 教育 信息 领域 应用 CNKI