数据脱敏方案V11.docx
- 文档编号:1926568
- 上传时间:2022-10-25
- 格式:DOCX
- 页数:19
- 大小:1.41MB
数据脱敏方案V11.docx
《数据脱敏方案V11.docx》由会员分享,可在线阅读,更多相关《数据脱敏方案V11.docx(19页珍藏版)》请在冰豆网上搜索。
数据脱敏方案V11
数据脱敏方案V1.1
LT
大数据脱敏方案
2017-1-15
更改履历
版本号
修改编号
更改时间
更改的
图表和章节号
更改简要描述
更改人
批准人
1.概述
1.1.编写目的
本文档描述了数据脱敏的研究成果和方法论。
旨在为具有数据脱敏需求的开发人员和项目提供参考和借鉴。
1.2.数据脱敏的定义
敏感数据一般指不当使用或XX被人接触或修改会不利于国家利益或不利于个人依法享有的个人隐私权的所有信息。
工业和信息化部编制的《信息安全技术公共及商用服务信息系统个人信息保护指南》明确要求,处理个人信息应当具有特定、明确和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除个人信息。
这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。
对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。
但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须首先获得个人信息主体明确的授权。
这项标准还正式提出了处理个人信息时应当遵循的八项基本原则,即目的明确、最少够用、公开告知、个人同意、质量保证、安全保障、诚信履行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一个环节提出了落实八项基本原则的具体要求。
数据脱敏(DataMasking),又称数据漂白、数据去隐私化或数据变形。
XX百科对数据脱敏的定义为:
指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
敏感数据,又称隐私数据,常见的敏感数据有:
姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类(如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。
随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息的保护。
个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。
1.3.数据脱敏需求
随着国家电网数据应用的不断深入,有许多应用需要和外部系统对接,数据需要对外提供服务才能体现出它的价值,大数据时代是数据融合的时代,如何在数据融合的过程中,保证数据在开发、测试、生产、应用等各个环节的安全,成为信息安全部门的重要任务。
国家电网数据脱敏需求包括:
通过数据抽取、数据漂白、数据混淆等处理过程,用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数据处理过程满足国家电网的敏感数据防护的政策规定。
具体脱敏需求包括:
Ø防止生产库中的敏感数据泄漏
通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。
Ø保证测试、开发、应用阶段的数据关联性
通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。
以提升测试、开发、应用环节的数据真实性和可用性。
Ø保证数据维护和数据共享的安全
对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求。
例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。
Ø保证隐私数据管理的政策合规性
数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行,脱敏规则符合国家电网的数据管理要求。
2.脱敏方案
2.1.脱敏流程
数据脱敏的流程一般分为:
敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。
2.1.1.敏感数据发现
敏感数据的发现分为人工发现和自动发现两种。
对于国家电网相对固定的业务数据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数据结构和数据长度不会有变化,大部分为数值型和固定长度的字符。
比如:
单位代码、户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略,保证敏感信息不被泄漏。
自动识别根据人工指定或预定义的敏感数据特征,借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别可以减少工作量和防止遗漏。
一般采用自动发现为主,结合人工发现和审核,来完成敏感数据的发现和定义,最终形成完善的敏感数据字典。
2.1.2.敏感数据梳理
在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的关联关系。
通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法,针对不同的数据类型进行数据掩码扰乱。
2.1.3.脱敏方案制定
对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。
脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以制定最优方案。
2.1.4.脱敏任务执行
脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。
2.2.脱敏算法
2.2.1.脱敏算法特征
通常根据不同数据特征选择不同的脱敏算法,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法通常包括屏蔽、变形、替换、随机、格式保留加密(FPE)和强加密算法(如AES)。
脱敏算法具有如下特性:
Ø同义替换
使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。
Ø部分数据遮蔽
将原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮盖部分或全部原文。
Ø混合屏蔽
将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,例如,城市、省、邮编在屏蔽后保持一致。
Ø确定性屏蔽
确保在运行屏蔽后生成可重复的屏蔽值。
可确保特定的值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值。
Ø可逆脱敏
确保脱敏后的数据可还原,便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。
2.2.2.K-Anonymity(K-匿名)
算法描述:
要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有k-1条记录半标识列属性值与该条记录相同。
理论上来说,对于K-Anonymity数据集,对于任意记录,攻击者只有1/k的概率将该记录与具体用户关联。
算法步骤:
Ø先移除标识列
Ø泛化半标识列
算法优缺点:
Ø优点:
可以用于保护个人标识泄漏的风险。
Ø缺点:
容易受到链接式攻击,无法保护属性泄露的风险。
对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。
对移除标识列的数据根据半标识列进行分组,每组最少有k条记录,每组中至少有k-1条记录的半标识列的值与该记录相同。
2.2.3.L-Diversity
算法描述:
Ø如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个“合适”值,则称该相等集是满足L-Deversity。
如果数据集中所有相等集都满足L-Deversity,则称该数据集满足L-Deversity。
Ø相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了属性数据泄漏的风险。
对于满足L-Derversity的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。
Ø通过插入干扰数据构造符合L-Diversity的数据集。
在K-Anonymity的基础上,每个数据集中,其敏感信息列有L个不同的值,攻击者只有1/L的几率获得正确的敏感信息。
2.2.4.T-Closeness
算法描述:
L-Diversity是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差距,差距越小,说明隐私信息泄漏越少。
T-Closeness约束则期望减少B1和B2之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。
如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足T-Closeness约束。
如果数据集中的所有相等类都满足T-Closeness,则称该数据集满足T-Closeness.
T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。
不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护。
2.2.5.算法用例
2.2.5.1原始数据
我们以用采用户数据为例:
ORG_NO(单位代码)
CONS_NO(户号)
CONS_NAME(户名)
ELEC_ADDR(用电地址)
ELEC_TYPE_CODE(用电类型)
LINE_ID
TRADE_CODE
VOLT_CODE
CONTRACT_CAP
33408300110
3520128944
浙江长兴县供电公司
浙江省湖州市长兴县泗安镇塔上行政村张家湾自然村
402
19520000
4710
AC00101
315
33408300110
3520093806
浙江奇碟汽车零部件有限公司
浙江省湖州市长兴县泗安镇五里渡行政村五里渡新村自然村
100
19520000
3720
AC00101
1880
33408300110
3520113877
华能长兴光伏发电有限责任公司
浙江省湖州市长兴县泗安镇三里亭行政村亭子头自然村杰夫厂区
100
19520000
1710
AC00102
1240
33408300110
3520091731
长兴县泗安镇钱庄村村民委员会
浙江省湖州市长兴县泗安镇钱庄行政村刘小湾自然村
100
19520000
1540
AC00101
80
33408300110
3520091731
长兴县泗安镇钱庄村村民委员会
浙江省湖州市长兴县泗安镇钱庄行政村刘小湾自然村
403
19520000
2540
AC00102
80
33408300110
3520189655
浙江物产汽车安全科技有限公司
浙江省湖州市长兴县泗安镇赵村村行政村赵村庙自然村
100
19520000
1610
AC00102
63
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 方案 V11