大数据环境下的信息系统安全保障技术.docx
- 文档编号:860335
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:4
- 大小:20.82KB
大数据环境下的信息系统安全保障技术.docx
《大数据环境下的信息系统安全保障技术.docx》由会员分享,可在线阅读,更多相关《大数据环境下的信息系统安全保障技术.docx(4页珍藏版)》请在冰豆网上搜索。
大数据环境下的信息系统安全保障技术
大数据环境下的信息系统安全保障技术
摘要:
继云计算、物联网之后,大数据是当前学术界和产业界研究的热点。
根据大数据的4V+1C特性可以将大数据应用过程分为采集、存储、挖掘和发布四个环节。
本文分析了大数据在各阶段所面临的安全威胁,阐述了大数据环境下的信息系统安全保障关键技术及应用。
Abstract:
FollowingcloudcomputingandIOT,bigdataisahotcurrenttopicinboththeacademicandtheindustryresearchnow.Accordingto4V+1Cfeatureofbigdata,bigdataapplicationprocesscanbedividedintothecollection,storage,miningandpublishingfourparts.Thispaperanalyzesthesecuritythreatsofbigdatafacedateachstage,elaboratesthekeytechnologyforinformationsystemsecurityforbigdataenvironmentsandapplication.
关键词:
大数据;4V+1C特性;安全威胁;信息系统安全
Keywords:
bigdata;4V+1Cfeature;securitythreats;informationsystemsecurity
0引言
继云计算、物联网之后,大数据成为时代最为前沿的话题。
数据里面有黄金让大数据充满诱惑力。
越来越多的企业开始对大数据进行研究,从大数据中挖掘出有用的信息能够帮助企业做出更加正确的决策,创造出巨大的商业价值。
仅2009年,谷歌公司利用大数据业务对美国经济的贡献就达到540亿美元。
淘宝公司通过对大量交易数据的变化分析可以提前6个月预测全球经济发展趋势[1]。
大数据是把双刃剑,它带来巨大机会的同时,也给信息系统带来了前所未有的安全问题。
在数据采集―数据整合―数据提炼―数据挖掘―数据发布这种新型数据链中对数据进行安全防护变得更加困难,同时,数据的分布式、协作式、开放式处理也加大了数据泄露的风险[2]。
现有的信息安全手段已不能满足大数据时代的信息安全要求。
本文分析了大数据安全威胁,阐述了大数据环境下信息系统安全保障技术,最后介绍了某企业大数据安全防护架构。
1大数据内涵与特征
不同的组织结构从不同角度对大数据给出了不同的定义:
在信息技术中,大数据是指一些使用现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集;在麦肯锡等咨询机构,大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集;在公司企业中,大数据通常指海量、多样的数据。
简言之,大数据是大规模数据的集合体,更是数据对象、集成技术、分析应用、商业模式、思维创新的统一体。
无论对大数据如何定义,它都具备4V+1C的特点,即:
多样化variety(大数据种类繁多,一般包括结构化、半结构化和非结构化等多类数据)、海量化volume(大数据体量巨大,PB级别是常态,且增长速度较快)、快速化velocity(数据的快速流动和处理)、价值密度低value(大数据价值密度的高低与数据总量大小成反比)以及复杂化complexity[3]。
2大数据安全威胁
在大数据环境下,数据采集―数据整合―数据提炼―数据挖掘―数据发布这种新型数据链中对数据进行安全防护变得更加困难,同时,数据的分布式、协作式、开放式处理也加大了数据泄露的风险。
大数据的4V+1C特征对传统的基础设施、存储、网络、信息资源等都提出了更高的安全要求,安全威胁将成为制约大数据技术发展的瓶颈。
2.1大数据基础设施安全威胁
大数据基础设施包括存储设备、运算设备、一体机和其他基础软件等,利用高速网络收集数据,大规模存储设备对海量数据进行存储,各种服务器和计算设备对数据进行分析处理。
这些基础设施虚拟化、分布式的特点使大数据面临如下安全威胁:
非授权访问、信息泄露或丢失、网络基础设施传输过程中破坏数据完整性等。
2.2大数据存储安全威胁
大数据的规模通常可达PB量级,数据来源多种多样,结构化数据和非结构化数据混杂其中。
大数据对存储的需求主要体现在海量数据处理、大规模集群管理、低延迟读写速度和较低建设运营成本等方面。
采用传统关系型数据库管理技术往往面临成本支出过多、扩展性差、数据快速查询困难等问题。
因此,对于占数据总量80%以上的非结构化数据,通常采用非关系型数据库NoSQL技术完成对大数据的存储、管理和处理。
而NoSQL也具有模式成熟度不够、系统存在漏洞等问题。
2.3大数据网络安全威胁
大数据时代的信息爆炸导致网络面临严重威胁。
网络节点的数量呈指数级增加,非法入侵次数急剧增长;攻击技术不断成熟且手段多样,APT(高级持续性威胁)攻击逐渐增多,攻击者的工具和手段呈现平台化、集成化和自动化的特点,具有更强的隐蔽性、更长的攻击和潜伏时间,给现有的数据防护机制带来了巨大的压力[4]。
2.4大数据带来隐私问题
大数据通常包含了大量的用户身份信息、属性信息、行为信息。
大量事实表明,大数据未被妥善处理会对用户的隐私造成极大的侵害。
传统数据安全往往围绕数据生命周期(数据的产生、存储、使用和销毁)来部署。
随着大数据应用越来越多,数据的拥有者和管理者相分离,原来的数据生命周期逐渐变成数据的产生、传输、存储和使用,使用户隐私面临巨大威胁[5]。
3大数据信息安全保障技术
根据大数据自身特性及应用需求的特点,可以将大数据应用过程划分为采集、存储、挖掘和发布4个环节。
数据采集环节安全问题主要是数据汇聚过程中的传输安全问题;数据存储环节是指数据汇聚后大数据的存储需要保证数据的机密性和可用性,提供隐私保护;数据挖掘是指从海量数据中抽取有用信息的过程,此过程需要认证挖掘者的身份、严格控制挖掘的操作权限,防止信息的泄露;数据发布是指将有用信息输出给应用系统,需进行安全审计,并保证对可能泄露机密的数据实现溯源。
图1为某企业大数据安全防护系统架构图。
3.1数据采集安全技术
数据采集环节是指数据的采集与汇聚,安全问题主要是数据汇聚过程中的传输安全问题,主要指数据的机密性、完整性、真实性、防止重放攻击。
目前主要采用虚拟专用网技术(VPN)通过在数据节点以及管理节点之间布设VPN的方式满足安全传输要求。
VPN技术将隧道技术、协议封装技术、密码技术和配置管理技术结合在一起,采用安全通道技术在源端和目的端建立安全的数据通道,通过将待传输的原始数据进行加密和协议封装处理后再嵌套装入另一种协议的数据报文中,像普通数据报文一样在网络中进行传输。
经过这样处理之后,只有源端和目的端的用户对通道中的嵌套信息能够解释和处理,对其他用户只是无意义的信息。
3.2数据存储安全技术
大数据除了具备4V+1C特征外,还具有生命周期长,多次访问、频繁使用的特征,尤其是云服务商和数据合作厂商的引入更加增加了数据泄露和窃取的风险,如果数据的存储安全性得不到保证,会对企业和用户带来无法估量的后果。
①数据加密。
使用VPN可以保证数据传输的安全,但当数据以明文的方式存储在系统中时,面对未被授权入侵者的破坏、修改和重放攻击时就显得很脆弱,对重要数据的存储加密是必须采用的技术手段。
数据加密算法分为对称加密和非对称加密。
常见的对称加密算法有DES、AES、RC4、RC5、RC6等,其加密和解密使用同一个密钥。
常见的非对称加密算法有RSA、ElGamal等,使用两个不同的密钥,一个公钥和一个私钥。
在实际工程中常将对称和非对称加密算法结合起来,利用对称密钥系统进行密钥分配,利用非对称密钥加密算法进行数据的加密,此种方式尤其适合大数据环境下加密大量数据。
②备份与恢复。
常见的数据备份与恢复机制有异地备份、RAID、数据镜像、快照等。
随着数据量达到PB级别,Hadoop是目前应用最广泛的大数据软件架构,Hadoop分布式文件系统HDFS可以利用自身的数据备份和恢复机制来实现数据可靠保护。
HDFS将每个文件存储分为数据块存储,除了最后一块,所有数据块的大小都是一样的。
文件的所有数据块都会保存多个副本来保证数据的容错,用户可以自己设置文件的数据块大小和副本系数。
数据的复制全部由控制节点管理,数据节点需要周期性地向它报告心跳信息(表明自己在正常工作)和自身状态(包括CPU、硬盘、数据块列表等)[6]。
3.3数据挖掘安全技术
数据挖掘即从海量数据中自动抽取隐藏在数据中有用信息的过程,是大数据应用的核心部分。
数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能运算、模式识别、神经网络、信息检索和空间数据分析等多个领域的理论和技术。
数据挖掘的专业性决定了拥有大数据的机构往往不是专业的数据挖掘者。
因此在大数据核心价值发掘过程中可能会引入第三方挖掘机构,要确保第三方在进行大数据挖掘过程中不植入恶意程序、不窃取系统数据,首要解决的安全问题就是数据挖掘者的身份认证[7]。
常用的认证机制有Kerberos认证机制、基于公告密钥的认证机制、基于动态口令的认证机制和基于生物识别技术的认证机制。
①Kerberos认证。
Kerberos是一种基于可信任第三方的网络认证协议,旨在解决分布式网络环境下,服务器如何对接入的用户进行身份认证。
Kerberos除了服务器和用户外,还包括可信任第三方密钥发放中心(KDC)。
KDC包括两部分:
认证服务器(AS)和凭据发放服务器(TGS),前者用于在登录时验证用户身份,后者用于发放身份证明许可证。
②基于公共密钥的认证机制PKI。
PKI是一种运用非对称密码技术来实施并提供安全服务的具有普遍适用性的网络安全基础设施。
它采用证书管理公钥,通过第三方可信任机构认证中心,把用户的公钥和用户的其他标识信息捆绑在一起,在Internet上验证用户身份以保证数据在网上安全传输。
③基于动态口令的认证机制。
为了解决静态口令的不安全性提出了动态口令机制,其基本思想是:
在客户端登录过程中,基于用户的秘密通行短语(SPP,securepassphrase)加入不确定因素,SPP和不确定因素进行变换(如使用MD5信息摘要),所得结果作为认证数据即动态口令提交给认证服务器。
由于客户端每次生成认证数据都采用不同的不确定因素值,保证了客户端每次提交的认证数据都不相同,因此动态口令机制有效地提高了身份认证的安全性。
④基于生物识别技术的认证方式。
目前业界已经广泛采用利用生物特征识别技术(如指纹、声纹、人脸、虹膜等)来认证人类真实身份,无需记忆密码。
由于生物特征具有与生俱来的自然属性,因此无需用户记忆,难以被复制、分发、伪造、破坏、共享、失窃等,安全性大大提升。
在大数据挖掘过程中的身份认证往往采用多因素认证,即将生物认证与密码技术相结合,提供用户更高安全性。
3.4数据发布安全技术
数据发布是指大数据在经过挖掘分析后,向数据应用实体输出挖掘结果数据的环节。
数据发布前必须利用安全审计技术对即将输出的数据进行全面的审查,确保输出的数据不泄密、无隐私、不超限、合规约。
当然,再严密的审计手段也难免有疏漏之处。
因此要有必要的数据溯源机制(数字水印技术)保证一旦数据发布后出现机密外泄和隐私泄露等数据安全问题时能够迅速定位到出现问题的环节和实体。
①安全审计。
安全审计是指记录一切(或部分)与系统安全有关活动的基础上,对其进行分析处理、评估审查,查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 环境 信息系统安全 保障 技术