大数据的技术与应用.docx
- 文档编号:30532114
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:30
- 大小:32.40KB
大数据的技术与应用.docx
《大数据的技术与应用.docx》由会员分享,可在线阅读,更多相关《大数据的技术与应用.docx(30页珍藏版)》请在冰豆网上搜索。
大数据的技术与应用
大数据的技术与应用(下)
宁家骏国家信息化专家咨询委员会委员
二一四年十二月
四、大数据的应用
这里我还想特别强调一下,就是当前在大数据的处理之后,有两个问题是非常要注意的。
第一个是怎么样来保护大数据中间的这种数据的敏感数据或者我们个人的隐私。
现在我们大量的交易的记录里,都有我们很多每个人的,比如说我们的身份信息,甚至于我们的账户信息,我们的密码信息,这些信息如果不加以保护,就会我们个人甚至于行业的安全带来巨大的损失,这个教训也不少。
第二个就是在当前怎么样来管理好这样的海量的数据,存储好,怎么样进行调度,怎么
样来进行这个数据操作的审议,也是一个非常重要的。
所以我们说处理大数据涉及到它的采
集、存储、分析,另外一个就是它的安全。
所以我们在当前必须看到处理大数据跟传统的数据,由于它量变,就引起了质量,所以
这样的话对我们现有的数据库管理性是带来了挑战。
换句话说传统的数据库很难处理好这个
大数据,另外就是由于传统的数据库没有考虑到数据的多样化,另外一个就是对数据的这种
大量的数据信息进行分析,我们现在做得还不够。
那么这个很重要的一个情况就是我们学数据库,大家知道就是叫,大家知道是一种按照
序列排序进行查询的这样一种语言,而现在我们对大量的这种非结构化的数据就必须用一种
非的一种方式来进行。
所以这个就引发了我们对这些数据的这种并发管理的这种技术的要
求,也就要求了我们更高的效率来存储和管理,同时又需要有高扩展性和高可靠性。
所以我
们说大数据离不开云计算,但是大数据又不等于是云计算,云计算是指的计算架构的调整,
而大数据是在新的架构下面我们所管理的海量的、类型复杂的、变化快的数据资源。
所以它
们之间的关系应该说云计算它是一个业务模式的变化,那么大数据是一种资产,这种资产的
现代化管理需要依靠云计算。
所以我们说云计算和大数据是密不可分的,云计算改变了的架
构,而大数据意义更加重大是改变了整个业务的模式。
所以在这种情况下,所以最后一点我要特别讲一下我们大数据的这个安全和应用问题。
1/12
大数据的应用范围非常广泛,
我们前不久我们经常说的往往是在商务上,
是在电子商务中间,
但是它绝不仅仅是在电子商务。
我们大数据有很多的应用,比如说在医疗的、公共卫生,在
健康上,在我们的食品安全的监控方面,
在我们的交通方面,
在我们的环保方面,
都会得到
广泛的应用。
特别是随着我们政府的行政体制的改革,
在建设法制型政府的时候,
我们是要
建设一个公开的透明政府,所以在这个过程中间我们更加需要利用大数据来推进我们政府的
信息开放,同时要为我们的建设一个更加合规的法治型的政府做出努力,
所以在智慧城市这
样的建设中间也需要用大数据来推动我们智慧城市的建设发展。
而大数据的应用,我们说很关键的是离不开数据的挖掘,
那么在当前我们说数据量非常
大,我们前面讲是一个巨人,怎么样从中找到那些有用的,就有点像我们大家开矿,开了很
多石头,但是这些石头哪一块是真正宝玉或者是翡翠,
那需要挖掘。
所以这一点是我们很重
要的一个关键,而做好挖掘,一个是要有相应的技术,相应的模型,而且要满足这种处理的
速率和时效的要求,因为信息这个东西大家知道有一句话常说,就是当季是宝,过季是草。
如果你当时那一刻没有找到它很好的利用价值,
你转瞬即逝,那时候过时的信息可能就没有
用。
需要你用这个信息里进行决策的时候,你找不到它的信息,找不到有用的东西,那你就
挖掘就没有真正的收到效果。
所以数据的挖掘,关键就是从大数据中间提取或者挖掘出的知
识,而知识是什么呢?
大家都知道,它是一个概念,或者是一个规则,是一个模式,或者是
一个规律。
所以这些东西怎么样从这些大量的杂乱无章的数据归纳出来、
总结出来,揭示他
们的关联性和大家的规律,这是关键。
所以我们说大数据有这么几种挖掘的形式,
第一个是
内容的挖掘,一个是结构的挖掘,那么还藏有一个用户行为的挖掘。
因为内容的挖掘我们大家容易理解,
那么结构的挖掘就是看我们这些数据符合什么样的
结构特征,具有什么样的这种结构的关联性。
那么另外一个呢,我们说要通过对大数据的挖
掘,了解用户的习惯,了解用户的体验,
知道用户需要什么,
他的习惯是什么?
他的爱好是
什么?
怎么样做能够更好的来满足用户的需求,这个是一个非常难的事情。
我们说在当前电子政务中间也是要用大数据的挖掘,
来找到我们在当今部门业务的处理
中间,怎么样更好的推动信息的共享,
怎么样来打破我们传统的部门的界限,
然后真正建设
一个网上,一个公开透明的政府,这一点是非常重要的,
也是为我们政府科学决策,推动我
们社会的发展,制定好更好的政策,做出更好的决定,更好的服务,这也是非常重要的。
使
我们的政府机构能够从中发现一些蛛丝马迹,
能够及早的做出决策,
避免损失,这都是非常
重要的。
所以数据挖掘是信息技术发展的一个重大的成果。
2/12
所以我们说随着大数据库的建立和海量数据的不断涌现,那么我们一定会提出最强有力的数据分析工具的迫切需求。
那么正是由于有了这个东西,我们才能够真正解决信息贫乏,
现在我们往往是数据十分丰富,而从数据也找不到有用的东西,所以叫成信息贫乏。
而只有我们有了强有力的工具,才能够把它的价值找出来,避免出现了就是数据的坟墓,就是数据量太大,你根本就挖不出来,也挖不过来。
所以这个是我们说一定要把一个数据矿山变成一个信息的金矿,这就是我们说数据挖掘的一个重大的作用。
我们说一般的来说,
对数据挖掘有这样的几个过程,
首先是要对数据进行清理,
因为大
数据收集的数据有杂声,
或者我们说有杂质,要有一个去粗取精、去伪存真的这样的一个操
作过程。
首先就是把数据中间的噪音杂质去掉。
第二要把多种的数据源进行集成,
就是数据
的集成。
第三个就是集成出来的数据要进行数据的选择,
或者叫剔除。
然后要把剔除出去的
进行变换,变换成一种统一的格式,然后在这种情况下对这些规范的数据再进行数据的提取,
或者我们叫挖掘,或者叫数据有用信息的知识提取。
然后提取出来的东西还要经过模式的评
估,经过评估到底对不对,最后要把提出来的东西用一种知识表示出来,或者是一个概念,
或者是一个公式,或者是一个模式,
或者是一个模型,这个就是我们数据,
大数据在数据挖
掘中的一个操作的大致的过程。
所有我们说数据的挖掘系统要有大数据库,
要有数据库的服
务器,要有知识库,要有数据挖掘的引擎,要有模式评估的模块,
还要有相应的这种用户满
意的图形界面。
当今我们还要对数据的挖掘不断进行研究,
比如说数据研究技术和特定商业逻辑的这种
集成,数据挖掘技术和特定数据存储类型的适应,
大型数据的选择和规格化,
数据挖掘系统
的构架以交互式的挖掘技术以及数据挖掘的算法和理论等等。
所以这样的话我们有了数据
的,就可以得到它很有用的应用。
比如说我们针对一定的市场,针对一定的目标性分析,比
如说我们像对市场分析的时候,
比如说对物价、对这个指数、
指数,比如说我们对社会管理
中间一定的用户,比如说我们对某个城市的流动人口进行分析,
对某个城市的菜篮子价格进
行分析,这些个都是从浩如烟海的这种大数据进行分析,
再进行我们对整个社会的风险。
比
如说我们现在社保基金大家都知道,
网上老说我们的社保基金将来可能有风险,
就是比如说
将来再过上若干年就入不敷出,那这个就需要进行分析,就需要用大数据的东西进行分析,
进行模式的这种推演。
那么到底看一看我们这么多的这个,
尤其中国人口这么多,
现在随着
养老的也越来越多,能不能够就是将来做到收入和支出平衡,
怎么样来保证我们这种社保基
金的风险不会发生。
所以这些问题在我们的类型,
比如说其他的像智能交通,
像我们的环保,
3/12
像我们的比如说节能降耗,这些东西。
当然我们说大数据的还有一个很大的这个,
大家一说
就知道,就是舆情的分析。
对于我们这种当时的这种现在很迫切的平安城市,像这种反恐、
反暴事件这种应用也更为普遍了。
当然我们说还有一个就是前面我讲的对财政金融的分析和
风险的管理,现在我们知道国家审计部门就在利用大数据,
在对于我们这个以前的,比如说
地方债务,地方融资平台的债务进行分析,
来控制风险。
包括对我们这种社保的专项基金进
行分析,所以这个都是非常重要的应用领域。
我们说管理大数据不容易,但是理解大数据、分析大数据更累,所以我们常说两句话,
就大数据的精髓是什么?
大数据的精髓是删除,
因为大数据利用大量的是那种没有用的就要
把它删掉,而删除的精髓是什么呢?
是不删除,
就保留下来那个有价值的东西,
所以这两句
话是辩证的。
而做好这个东西,
离不开软件,所以软件是大数据的重要的引擎,所以这也是
构成大数据生态的一个重要支撑。
当然我们说现在的大数据在管理和技术应用上面临着一系
列的挑战,首先是我们如何管理。
那么另外我们怎么样来建好我们的存储架构、网络架构,
那么还有一个很重要的怎么样来保护数据的安全,
保护我们信息安全,保护隐私,这几个问
题都是我们在当前大数据应用中间非常重要的挑战。
所以我们说管理大数据容易,
理解大数
据更难,所以这一点是。
特别是随着我们社会形态的变化,社会管理的创新,要求我们对大
数据的应用一定要提高到一个新的水平,
要求我们用大数据来进一步指导推进我们政府各个
部门协同的工作。
特别是当今这种复杂的网络环境,
对我们大数据的应用和服务也产生了巨
大的影响。
所以一个是我们的服务内容要求更加丰富,
服务的方式要更加灵活,
所以在这种
情况下我们在当今的信息化的建设中间,必须围绕着大数据的应用体现于用户服务为中心,
以资源建设为基础的这样一个根本的思路。
所以这个也就是我们在当前信息化建设中间一个
基本的一个策略。
当前我们普遍在大数据的开发和应用存在着很多的难点,
最重要的是我们
的资源,经常是在体制和机制上存在我们。
我们的信息资源重复开发,
利用效率低,本身成
本又没有很好的控制,很重要的一个情况就是我们现在信息都是用公共财政的数据部门化、
私有化,不能够真正推进信息的共享,也不能够真正的实现整合。
所以要改变这个方式,必
须要有我们顶层设计,要有我们科学的总体框架和有力的实施的基础,
要建立一套大数据下
新的信息化的机制和信息的机制,
就是要保障信息是一个有源之水,
有本之木,源源不断而
来,要保证我们的信息能够在一个公共的平台上推进它的开放,
它的共享,同时要推进我们
大数据理论的研究和应用。
我们说大数据利用的精髓就是信息的整合和共享,所以这个是一个非常的核心的东西,
4/12
所以如果离开了整合和共享,
那么不能够做好大数据的应用。
在这种情况下我们说最重要的
是大数据给我们带来了很大的机遇,
但是要做好这个机遇我们还要做很艰苦的工作,
其中包
括了信息机制的建设和我们专业化服务的建设。
首先我们说大数据应用的场景离不开专业的
业务场景,离不开我们专业业务人员的支持。
其次才是我们数据分析人员和数据管理人员的
合作,所以这个也是我们一个非常重要的。
在当前我特别想说要重视大数据带来的风险,
其
中很大的一个程度就是我们当前要注意当前大数据安全的问题。
我们说信息安全这个概念一
直在发展,过去我们只是讲物理的安全,比如说我们一个机房要安全,大家家家都要锁门,
有门禁就叫安全。
后来有了网络,就要重视网上的安全,网上就要设一些卡,设一些事儿,
比如说加一些防火墙这些东西,
防病毒。
那么之后到了新世纪就更加强调应用的安全,
比如
说我们要有身份的认证,要有木马的防护,要有流量的控制,但是现在最重要的实际是我们的数据的安全。
首先是我们数据要防止我们的这种丢失、损失,防止我们的泄露。
第二个我们的数据要
进行严格的审计,谁修改了数据,谁发布了数据,都要可查可审查可追溯,不然的话谁对这
个数据负责,所以这是我们当今最重要的问题。
大家都知道今年我们国家这个在互联网上有很多的举动,我们今年在乌镇刚刚召开了中
国的互联网世界大会。
那个互联网是一个影响非常大的,但是互联网最大的挑战是什么?
我
们说就是它的安全。
现在我们大家都有移动的终端,智能终端,移动的智能手机,但是大家
都知道这个手机也有不安全的一面。
现在我们这个手机这个测试差不多手机,所有的手机都
有安全漏洞,所以这个是我们在当前非常值得我们警觉的一些问题。
而互联网发展到了今天,
大数据发展到了今天,安全决定了成败,安全是创新的前提,是发展的保障,是技术的引领,
是市场的先导,是核心竞争力的标志。
谁掌握了安全这条生命线,
谁就掌握了先机,谁就能
在下一代互联网空间脱颖而出。
而且我们今年已经成了名副其实的网络大国,
我们网民人数
最多,我们就互联网的影响也最大,
现在我们有一批在世界上也有影响的互联网公司,
比如
说今年大家都知道上市的阿里巴巴,
所以我们现在是一个名副其实的网络大国。
但是我们不
是一个网络强国,这几年来在信息安全领域里,
就像一部跌宕起伏的大片一样,
起起伏伏吸
引了人们的眼球,就是一方面那么国外一些人老说我们中国有黑客攻击世界似的,
实际是一
个不公平。
但另外一方面我们受到的损害又非常大,
可以说是世界最大的。
所以这样的一个
我们可以长到现在是一个网络空间竞争更加激烈的这样一个时代,
各位都知道去年曝光了棱
镜门事件,给我们敲响了一个警钟,就是美国国家安全局的一个前雇员,叫做斯洛登的人,
5/12
他剥茧抽丝挤牙膏的公开了美国国家安全局一系列基于网络的这种情报和间谍活动,
而且这
些活动大家都知道相当多的一部分是针对我们国家,
包括了针对我们国家的企业,
像华为这
样的企业,针对的我们的政府和其他的一些重要的机构。
所以棱镜门这个事件验证了美国了
信息安全霸权取向,也折射了美国网络战略对我们国家信息安全带来的重大的威胁。
我们作
为发展中的信息化大国,对网络的依赖程度日益增加,
拥有自己的主权和巨大的利益,
所以
这个对我们是一个很大的威胁。
同时,随着信息化的推进和大数据的到来,
棱镜门事件折射
出了我们的信息系统安全风险依然存在,
所以这个事件是我们既感到震惊也使我们认识到加
强我国信息安全,是一项长期而艰巨的任务,
所以这个是。
同时也表明了我们的基础网络和
重要信息系统,它的网络安全面临着复杂的新的形式。
所以在当前我们对重要信息系统和基
础网络的安全提出了更加紧迫的信息,
特别是大家知道这种信息资产数据的安全,
如果我们
不加以重视,不加以保护,一旦丢失泄露,势必给我们造成难以挽回的损失。
这个这些年来
我们有过很多的教训,所以我们在当前对信息安全的形势要有清醒的认识和判断,
所以也验
证了我们今后一些个敌对势力之间的较量,
不仅仅是有实力空间的大规模的毁灭战争,
而可
能正在向网络空间的大规模的瘫痪战争转移,
比如说别人搞你一下把你搞摊。
这就是我们当
今的云计算也面临着新的网络安全的威胁,除了传统的威胁之外,比如是主机的安全威胁,
网络的安全威胁,应用安全威胁,还有虚拟化、多宗户带来的新的安全威胁。
另外就是我们也看到,就是前面我也讲移动终端安全问题更加突出。
最近我们国家一个
安全团队在东京举办的一个安全大赛的中间,
不到秒就破解了苹果的这个操作系统,
就掌握
到它的后门和漏洞,所以这是非常值得警惕的。
这个所谓叫做高等级的持续性威胁,
在不断
的威胁或者侵蚀着我们的基础网络和重要系统,
所以这对我们国内的重要系统和一些重要的
行业,重要的企业都是一个高风险。
那么在这种情况下,
我们必须避免像伊朗这种阵亡病毒
(音译)和阿拉伯的火焰病毒(音译)和其他问题的收集。
特别是大家知道今年微软停止了
的服务,使得我们亿多的用户的这个操作系统的保证受到了重大的威胁,
就在微软停止服务
的同一天,网络安全的协议这个叫做的协议,
也暴露出了安全漏洞,这这个协议是我们很多
用户的网银和我们的一些个内部的电子邮箱都使用的协议,
所以这个是一个损失也是非常巨
大,风险非常大的漏洞。
而且今年之前又暴露出一个叫做巴士漏洞(音译)
,所以这个漏洞
的严重性更强,所以在这种情况下我们可以看到,我们国家面临着巨大的网络安全的威胁。
所以我们说网络安全最大的受害者,
也面临着新的形势。
这个新的形势是什么呢?
一方面我
们对网络的依赖性越高,对信息化的依赖程度越高,
另外我们大数据这个应用的建设的需求
6/12
也越来越紧迫,要求利用大数据来进行应用开发的需求越来越紧迫。
但另一方面就这些领域
的安全问题也没有一个十全十美的一个非常成熟的解决方案。
特别是我们国家在当今,在转
型发展期间社会管理还有一些新的形势,我们的发展不够平衡,社会结构也在变化,公民的
意识也在多元化。
比如说由于存在的一些问题,像我们现在一些个国内也出现了像疆独、藏
独分子,一些暴乱分子,所以这个问题都给我们的风险加大,而我们的风险管理又是非常态
化的,又是滞后的,往往是静态的,也是比较脆弱的。
所以在这种情况下,我们必须高度重
视这个风险。
另外长期以来特别我说,我们对个人的信息保护严重滞后。
大家都知道至今我们国家尚
未就个人隐私保护立法,只是引用《民法通则》里头的对个人隐私进行保护和一些司法解释。
所以我们这个各位领导都知道,
我们很多人的那个个人信息就被泄露,
很多人就通过各种方
式来了解你的信息,向你进行非法的推销,甚至于诈骗,
这个都有。
所以我们一定要深刻理
解,在大数据环境下,那么它的安全风险增大这种趋势长期并存的局面,一定是长期并存。
所以在这种情况下,我们在新时期对加强大数据环境下这种系统安全保障体系的建设,
提出
了更加紧迫,也更高的要求。
所以要求我们必须要统筹规划,
要加强战略的研究。
我们面临
的信息安全问题的性质,已经不是一个局部性和技术性的问题,也是一个跨行业、跨领域、
跨部门的综合性的安全问题。
所以也关系了我们国际民生,
关系到国家安全证券的问题,所
以我们对大数据环境下的信息安全必须给予高度的重视。
所以完善我们国家的信息安全保证
体系,是一个持续渐进的过程,
所以一定在这种情况下要坚持我们的安全可控。
当前我们安
全离不开保密、完整、可用、可追溯、抗依赖、真实可控,那么这些个安全属性它是一个整
体,不能割裂开来。
所以我们在当前由于有了各种的安全的事迹,
所以我们看到的有些信息
外泄,给我们带来了巨大的挑战,
所以在这种时候我们一定要按照国家既定的国策,
就是要
坚强信息系统的等级保护和分级保护建设。
那么包括我们通过这个等级保护来建立我们相应
的系统,特别是在数据的安全中,
在大数据的安全中,非常的重要的但最重要是建立好一个
安全管理的机制,完善我们的体制,
所以说技术是一个方面,
但最重要的还有离不开人。
所
以数据安全管理的系统是重要的,同时还要合规、
安全、科学部署。
因为数据的安全离不开
它的集中的存储,离不开它的加密存储,
离不开它的加密输出,离不开它的认证授权,
离不
开它的审计。
这几个环节就是我们对大数据要必须把握的这些环节,
所以我们在大数据来说
它的安全,我们可以从三个层面来谈。
一个层面我们说就是设计安全,
因为很多层面我们怎么样来看这个东西呢?
我们要有三
7/12
个要素。
一个是我们要分析我们的数据的资产的属性,
就是这些是公开的,还是属于内部的,
还是敏感还是机密,甚至是绝密。
第二个要分析危险,是来自与内部还是外部,威胁的强度
是弱的是中的,还是强的。
那么再分析我们的安全措施是不是保障到位,还有哪些差距,所
以这个是很重要的。
所以我们在当前要做好大数据安全的,
一定是说我们要了解我们大数据
管理的规则,大数据的特征。
所以在当前我们要有从宏观态势的感知到动态的预防,
所以关
键是我们要解决看到我们的风险,
然后才能够解决好我们的风险,
才能够预知我们碰到的问
题。
所以在当前这个情况下,我们很重要的一点就是我们要从数据的视角来讲,
要从我们服
务的视角,也从我们的系统管理的角度。
所以在这种情况下,我们叫分析的时候要分析我们
的资产,分析我们受到的威胁,
分析我们采取的保证措施。
所以在这种情况下,我们特别要
注重我们从数据的视角来看待数据的安全。
数据的视角我觉得第一个是我们的数据可能被污
染,人家可能给你搞乱破坏掉。
另外数据可能被窃取,然后被丢失,另外数据它可能通过这
个给你传播有害的信息,
所以这个几个层面都是我们要注意的。
所以在当前这种情况下,我
们还重要的最后要从系统的层面,
也就要从我们人的角度来说。
影响大数据的安全,
我们说
是四个层面,第一个是管理的体制,
第二个是我们的安全保障的措施,
包括我们的基础,第
三个是我们安全保障的这个评价的指标体系,
那么最后还有我们安全的人。
人是最核心的东
西,所以在这种情况下,我们说要建设安全保障体,
包括大数据,我们一定要避免形式主义,
一定要落到实处。
所以在当前我们有了大数据的安全的这种风险的分析,
才能够做好大数据
的应用。
我们也不能够说因为有数据的安全我们就不开发大数据,
不利用大数据,甚至我们
常常说我们就不上网,
不共享,不互联,这样更安全,这是一种懒政思维,也是一个不足取。
只有在发展中保安全,
通过安全来保发展,这个辩证关系才是对的,
所以国家早在就制定了
国家的信息化战略,其中信息安全保障的提升是我们一大目标。
所以在这种情况下,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 应用