数据质量管理.ppt
- 文档编号:1764290
- 上传时间:2022-10-23
- 格式:PPT
- 页数:41
- 大小:1.10MB
数据质量管理.ppt
《数据质量管理.ppt》由会员分享,可在线阅读,更多相关《数据质量管理.ppt(41页珍藏版)》请在冰豆网上搜索。
数据管理数据管理演讲人:
演讲人:
部门:
部门:
职务:
职务:
数据管理数据管理数据管理数据管理数据管理数据管理数据管理的难点与重点2数据质量控制方法论3案例介绍4数据管理的目标数据管理的目标1目标一:
安全目标一:
安全l访问安全访问安全l存储安全存储安全目标二:
正确目标二:
正确l数据精确数据精确l数据正确数据正确目标三:
效率目标三:
效率l常规加载的效率常规加载的效率l非常规加载的效率非常规加载的效率数据管理的目标数据管理的目标数据管理的目标数据管理的目标数据管理数据管理数据管理数据管理数据管理数据管理数据管理的难点与重点数据管理的难点与重点2数据质量控制方法论3案例介绍4数据管理的目标1数据质量管理的难点与重点数据质量管理的难点与重点数据质量管理的难点与重点数据质量管理的难点与重点数据质量概念数据质量概念1数据质量的重要性2数据质量不高的主要原因3数据质量归类4数据质量示例5数据质量管理方法6l数据本身的数据质量数据的真实性:
数据必须真实准确的反映实际发生的业务。
数据的完备性:
数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
数据的自治性数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。
数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。
数据质量概念数据质量概念数据质量概念数据质量概念数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。
除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。
l数据的过程质量数据的使用质量:
数据的使用质量是指数据被正确的使用。
再正确的数据,如果被错误的使用,就不可能得出正确的结论。
数据的存贮质量:
指数据被安全的存贮在适当的介质上。
所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。
数据的传输质量:
数据的传输质量是指数据在传输过程中的效率和正确性。
在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。
数据质量概念数据质量概念数据质量概念数据质量概念l关系建设系统成败很多数据仓库应用程度不高或最后失败,归根结底都是数据质量不高造成的。
l数据质量好坏关系到结果与预期是否一致低下的数据质量往往造成开发出来的系统与用户的预期大相径庭l数据质量是决策正确的保障数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。
不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。
l数据质量是长期困扰开发的难题数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题。
数据质量重要性数据质量重要性数据质量重要性数据质量重要性数据质量不高的主要原因数据质量不高的主要原因数据质量不高的主要原因数据质量不高的主要原因数据质量归类数据质量归类数据质量归类数据质量归类数据质量示例数据质量示例数据质量示例数据质量示例数据质量管理方法数据质量管理方法数据质量管理方法数据质量管理方法数据管理数据管理数据管理数据管理数据管理数据管理数据管理的难点与重点2数据质量控制方法论数据质量控制方法论3案例介绍4数据管理的目标1数据质量控制方法论数据质量控制方法论数据质量控制方法论数据质量控制方法论数据源检验方法数据源检验方法1数据源检验适用规则2数据检验方法3数据检验适用规则4数据质量检验的顺序5数据源检验方法数据源检验方法数据源检验方法数据源检验方法分类分类检验方法检验方法检查范畴检查范畴异常处异常处理方式理方式说明说明时效性时效性检验数据是否按时到达报警正确性完整性检验代码一致性记录条数检查停止ETL原则性检验数据值检查停止ETL对单字段的数值检查。
不符合原则性检验时该数据一定是错误的。
逻辑性检验数据值检查报警对单表或多个表内字段间逻辑关系的检查数据源检验是对HDS中的源表进行的数据质量检查。
数据源检验分为时效性检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、逻辑性检验。
数据源检验方法数据源检验方法数据源检验方法数据源检验方法l时效性检验时效性检验判断在约定的时间内,数据源的数据是否按时到达l完整性检验完整性检验HDS数据表与代码表的一致性检查HDS数据表记录数检查l原则性检验原则性检验HDS数据表中字段的数值是否在合法的区间内l逻辑性检验逻辑性检验单表或多个表内字段间逻辑关系的检查数据源检验适用的规则数据源检验适用的规则数据源检验适用的规则数据源检验适用的规则l时效性检验时效性检验规则一:
时效性检验适用于HDS中所有的代码表和数据表。
l完整性检验完整性检验规则二:
包含外键字段的HDS数据表必须进行代码一致性检验。
规则三:
包含日期型字段且可以确定记录数范围的HDS数据表必须进行记录条数检验。
l原则性检验原则性检验规则四:
HDS数据表中可以确定取值范围的字段必须进行原则性检验。
l逻辑性检验逻辑性检验规则五:
单表或多个表内的字段具有相同的业务含义,不同的统计口径,且存在汇总关系。
满足此条件时必须进行逻辑性检验。
规则六:
本表的字段与其他表中的字段的业务含义、统计口径相同。
满足此条件时必须进行逻辑性检验。
规则七:
单表或多个表内的字段具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立。
满足此条件时必须进行逻辑性检验。
数据检验方法数据检验方法数据检验方法数据检验方法数据校验是对DDS数据库中前台应用直接使用的相关表的检验。
数据校验分为时效性检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、模糊性检验、逻辑性检验。
分类分类检验方法检验方法检查范畴检查范畴异常处理方式异常处理方式说明说明时效性时效性检验数据是否按时到达报警正确性完整性检验代码一致性记录条数检查停止ETL原则性检验数据值检查停止ETL对单字段的数值检查和单表内逻辑关系的检查。
不符合原则性检验时该数据一定是错误的。
模糊性检验数据值检查报警对单字段的数值、同比值的检查。
不符合模糊性检验时只能怀疑此数据有问题。
逻辑性检验数据值检查报警对不同数据源加工得到的多个表内字段间逻辑关系的检查。
不符合逻辑性检验时只能怀疑此数据有问题。
数据检验方法数据检验方法数据检验方法数据检验方法l时效性检验时效性检验判断在约定的时间内,前台应用直接使用的相关表是否按时加载l完整性检验完整性检验DDS事实表与维度表的一致性检查DDS事实表记录数检查l原则性检验原则性检验DDS事实表中单字段的数值是否在合法的区间内同一表内字段间逻辑关系的检查l模糊性检验模糊性检验判断字段的数值及其同比值是否在合理的区间内l逻辑性检验逻辑性检验由不同数据源加工得到的多个表内字段间逻辑关系的检查数据检验适用的规则数据检验适用的规则数据检验适用的规则数据检验适用的规则l时效性检验时效性检验规则一:
时效性检验适用于DDS中所有的维度表和事实表。
l完整性检验完整性检验规则二:
包含外键字段的DDS中事实表必须进行代码一致性检验。
规则三:
包含日期型字段且可以确定记录数范围的DDS事实表必须进行记录条数检验。
l原则性检验原则性检验规则四:
表中的字段可以确定取值范围,同时可以判定不在此范围内的数据必定是错误的。
满足此条件必须进行原则性检验。
规则五:
同表内多个字段间具有相同的业务含义,不同的统计口径,存在汇总关系时,必须进行原则性检验。
规则六:
同表内多个字段间具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立时,必须进行原则性检验。
数据检验适用的规则数据检验适用的规则数据检验适用的规则数据检验适用的规则l模糊性检验模糊性检验规则七:
不能进行完整性、原则性检验的情况下,必须进行模糊性检验。
规则八:
规则七不成立时,根据系统的重要程度决定是否进行模糊性检验。
系统的重要程度及哪些系统要进行模糊性检验由客户方确定。
l逻辑性检验逻辑性检验规则九:
本表的字段与其它表中的字段具有相同的业务含义,不同的统计口径,存在汇总关系,且两张表的数据不是经同一数据源加工得到。
满足此条件时必须进行逻辑性检验。
规则十:
本表的字段与其他表中的字段的业务含义、统计口径相同,且两张表的数据不是经同一数据源加工得到。
满足此条件时必须进行逻辑性检验。
规则十一:
本表的字段与其他表中的字段具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立,且两张表的数据不是经同一数据源加工得到。
满足此条件时必须进行逻辑性检验。
数据质量检验的顺序数据质量检验的顺序数据质量检验的顺序数据质量检验的顺序1、数据源完整性检验数据源完整性检验数据源的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验2、数据源原则性检验数据源原则性检验数据源的原则性检验报异常时应停止ETL加载过程。
不需要再进行后续的检验3、数据校验完整性检验数据校验完整性检验数据校验的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验4、数据校验原则性检验数据校验原则性检验数据校验的原则性检验报异常时应停止ETL加载过程,不需要再进行后续的检验5、数据源时效性检验、数据源逻辑性检验、数据校验时效性检验、数据源时效性检验、数据源逻辑性检验、数据校验时效性检验、数据校验模糊性检验、数据校验逻辑性检验数据校验模糊性检验、数据校验逻辑性检验这五类检验方法报异常时,ETL加载正常进行,但需要给出预警提示数据管理数据管理数据管理数据管理数据管理数据管理数据管理的难点与重点2数据质量控制方法论3案例介绍案例介绍4数据管理的目标1数据质量检验的案例数据质量检验的案例数据质量检验的案例数据质量检验的案例下面以行业对比报表中的全国卷烟市场分类销量情况表(分价类)为例来介绍如何根据数据质量管理方案进行各类规则的制定实施过程。
步骤一确定相关的表步骤一确定相关的表步骤一确定相关的表步骤一确定相关的表全国卷烟市场分类销售情况表(分价类)在DDS中直接使用的表为:
APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL对应的HDS中的源表为:
EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL。
因此下面的检验规则主要针对这两张表来制定。
步骤二确定数据源的时效性检验规则步骤二确定数据源的时效性检验规则步骤二确定数据源的时效性检验规则步骤二确定数据源的时效性检验规则根据表EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL的数据到达规律,定义该表每月最晚到达日期为8日。
步骤三步骤三步骤三步骤三确定数据源的完整性检验规则确定数据源的完整性检验规则确定数据源的完整性检验规则确定数据源的完整性检验规则根据数据源检验适用规则的规则二、三:
1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有外键字段I_Province(省份代码)、I_Org(机构代码)、C_Brand(规格)。
I_Province(省份代码)对应代码表DM.T_DM_GJJ_QGSF中的QGSFDM;I_Org(机构代码)对应代码表DM.T_DM_GJJ_ZZJG中的ZZJGDM;C_Brand(规格)对应代码表T_DM_GJJ_JY中的THTXBS。
该表符合规则二的检验条件,需要进行代码一致性检查。
2、该表包含有日期型字段Y,M,但记录条数每月不确定,因此不满足规则三,无法进行记录条数检查。
步骤四步骤四步骤四步骤四确定数据源的原则性检验规则确定数据源的原则性检验规则确定数据源的原则性检验规则确定数据源的原则性检验规则根据数据源检验适用规则的规则四:
1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有数据字段sell(系统外总销量)、Out_Sell_Retail_Amount(系统外零售量)、Out_Sell_Amount(系统外批发销量)、End_Stor
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量管理