数据治理数据质量提升整改.docx
- 文档编号:8983419
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:9
- 大小:216.30KB
数据治理数据质量提升整改.docx
《数据治理数据质量提升整改.docx》由会员分享,可在线阅读,更多相关《数据治理数据质量提升整改.docx(9页珍藏版)》请在冰豆网上搜索。
数据治理数据质量提升整改
1数据质量提升整改
满足监管要求的数据补足和数据质量提升难免涉及陕西信合业务系统及各种接口的改进,以及相应的处理流程等的合理调整,为了同时满足监管要求、时间要求和成本效益原则,IBM将为陕西信合不同类型的数据分别制定不同的数据补足和数据质量提升的方案。
1.1业务处理流程的合理调整
IBM对各业务系统数据的差异性分析与数据质量分析时发现,将有部分数据是由于陕西信合的业务流程不健全和不完善,而造成这部分数据的缺失或不合格。
虽然可以通过数据补录或其他方式,部分解决其差异问题。
但从陕西信合长期发展角度看,应该对业务流程进行合理调整,以提供可持续的解决方案。
⏹根据差异数据的业务含义和来源,制订相应的数据产生的业务方案,在与相关业务部门充分沟通的基础上,设计其相应的处理流程,并确定引入这些数据的合适的业务系统。
⏹在明确相应的处理流程的基础上,确定最适合引入这些数据项的业务系统。
在选择合适的系统时要考虑数据项的采集时间、与实际业务产生该信息的滞后时差等因素。
⏹对于重要的业务数据项(如本金余额、专项准备金、呆账损失额、违约贷款的回收额等)需要将业务系统中数据的准确性保证、例外情况盘点等关键责任落实到相关业务部门的主要负责人上并建立严格的绩效考核(发现问题的时间、问题根源的发现、及解决方案的及时性和合理性)制度。
特别的数据项还需要建立专门的岗位(如内部评级对应的违约概率统计和检验、抵押品效应及违约损失率检验和修正等)并辅以严格的操作规程才能有效地持久地确保合格的数据内容和对应业务意义。
⏹在为缺失专用数据项而确定业务数据系统的改进或调整方案时,应综合考虑对现有业务系统的影响,根据IBM的经验,对于其对已有信息及运用的影响较易控制的数据,主要任务是选择数据产生和存储的时间和位置;对于由多个信息来源综合定值的数据项常可有多种方案选择,除了运用IBM以往的经验推荐较保守的方案外,还会根据银行相关人员的理解和操作流程,制定可操作的解决方案。
总之以简洁清晰的数据取值和准确无误的定义描述(数据字典)来规范和设定具体业务数据项,清晰地分析并展现各业务系统数据处理全过程中的数据整合和管理,落实数据内容正确性和及时性的探测和改正的(业务)责任方(或专职岗位)是做好业务系统数据补充实施方案设计工作的关键要素和指导方针。
1.2选择适当的业务系统或接口改进建议
数据弥补通常包括通过业务系统改进补足和数据仓库补录数据;数据质量提升通常包括业务系统和数据仓库数据清理、业务系统和数据仓库改进、业务流程改进等。
为此,需要从数据差异、数据质量、IT系统、业务条线和数据特性五个维度综合考虑数据质量提升方案,并与陕西信合相关部门密切配合,针对不同数据分类实施不同的改进建议,目标既要满足监管要求,同时要符合时间要求和成本效益原则。
数据仓库、业务系统及接口改进与上述五个维度的对应分析参见下图:
其中数据特性维度,包括数据类型、数据优先级、数据关联度、时间维度等。
⏹数据类型:
Ø静态数据,指不参与业务逻辑处理(如审批)或数据逻辑处理(如汇总计算)的数据
Ø动态数据,指参与业务逻辑处理(如审批)或数据逻辑处理(如汇总计算)的数据
⏹数据优先级:
如高、中、低优先级,或级别更细。
⏹数据关联度:
如孤立的数据与高、中、低关联度数据,或级别更细。
⏹时间维度:
新增数据与历史数据。
针对数据差异的不同维度、数据质量的不同维度而引起的不同范围的源系统改进,将通过以下内容进行描述。
1.3业务系统改进建议
业务系统改进会影响接口和数据平台改动,而且业务系统通常有实时和7×24交易的需求,因此应将最少的数据项补足或清理归入此类,即便对于归入此类的数据项,IBM仍将细分多种改进方案,在满足陕西信合监管要求的前提下,按时间要求和成本效益原则选择最适合的方案。
下面详细说明如何通过分解业务系统数据补足和数据质量提升方案设计,最终提出业务系统改进建议。
业务系统数据的弥补建议
通常数据补足建议包括改进业务系统和直接在数据平台补录,其中业务系统改进可以细分为以下方案:
⏹通过外部数据源的ETL过程,将数据补足到业务系统数据库;
⏹新增补录界面,在补录界面新增数据项;
⏹修改该数据项涉及的业务界面,在业务界面新增数据项;
⏹修改该数据项涉及的整个逻辑处理流程,在各处理环节新增数据项;
⏹新建业务系统,完善应用体系,采集监管要求的数据。
以上各种对业务系统的改进方案的成本和难度是逐渐增加的,同时上述各种改进需要建立配套的流程、岗位等,成本和难度也是逐级增加的。
因此数据补足与业务系统改进是目标与行动的关系,业务系统改进设计只有充分考虑了数据补足需求和方案,才能减轻业务系统改进压力和难度。
业务系统数据质量提升方案设计
数据质量弥补方案设计本质上是数据质量评估的后续执行阶段,数据质量弥补方案设计方法分为四步:
确定数据质量改进方向、定义数据弥补任务、定义数据弥补任务的实施方案、执行数据弥补方案。
⏹确定数据质量改进方向
根据数据质量原因分析所获得的数据质量原因,找出其对应的改进方向。
改进方向和原因分析相对应,也划分为业务标准/需求、流程、技术手段、人员职责四大类。
在项目执行过程中,将根据具体的数据质量原因确定数据质量改进方向的类型及改进点和要求。
数据质量改进方向的产出内容示例如下:
⏹定义数据弥补任务:
数据质量弥补任务主要集中在数据清洗补录、系统流程改进、强化数据标准化、规范人员操作等。
根据数据质量分析任务中确定的改进方向,结合存在数据质量问题的具体规则,定义数据弥补任务列表,定义每个数据弥补任务的目标和具体弥补需求。
数据弥补需求内容示例如下:
⏹定义数据弥补任务实施方案
根据IBM的实施经验,根据数据弥补任务目标的不同,弥补任务可划分为数据源系统的改进和补录,数据质量保障体系的改进、数据质量持续改进控制管理三大条线。
数据弥补任务实施方案中任务依赖关系内容示例如下:
各条线数据弥补任务的实施进度规划内容示例如下:
历史数据的清理及补充方案设计
历史数据的清理及补充是数据整改工作的一项重要而耗时的工作,需要IBM与陕西信合密切配合,共同完成。
下面列示了历史数据的清理及补充方案设计应考虑的关键点:
⏹定义目标历史数据:
根据数据差异性分析和数据质量分析报告定义需要清理和补充的目标历史数据的范围和数据期间。
⏹定义关联历史数据:
清理和补充目标历史数据所影响的下游关联历史数据。
⏹制定清理及补充标准:
即制定目标和关联历史数据清理及补充要达到的目标,也是将来的验收标准。
⏹划分清理及补充工作:
如使用程序完成、程序和手工配合完成、只能手工完成的数据处理;批量处理和单笔处理等。
⏹设计数据项的清理逻辑:
包括源、清洗、转换、目标、影响等。
⏹工作量计划:
评估各部分清理及补充工作量,制定时间和人力计划。
⏹启动实施会议计划:
IBM与陕西信合负责数据清理和补充的相关部门讨论上述方案,双方最终应达成一致意见,确定数据整改启动实施。
⏹培训计划:
方案将包括对陕西信合进行数据整改作的人员的培训计划。
⏹定期评估计划:
方案将包括定期获得历史数据整改情况反馈,进行有效性评估的计划。
1.4数据采集与补录建议
在项目实施中,如果各源系统不能提供,则需要陕西信合业务部门采取手工方式收集相关数据,并建立数据补录平台,将采集到的补充业务数据加载到数据平台。
该项工作是项目实施中的一项重要工作任务,以下论述IBM在本项目中的数据采集与补录实现方案。
数据补录流程图
数据采集与补录的一种可行方案是,数据采集使用Excel格式的数据采集模板执行。
采集流程如上图,用户通过Web页面将Excel数据上传到Web服务器,校验模块读出数据,对其进行规范性、完整性检查,通过检查的数据,交由加载模块加载到数据平台;不能通过校验的数据,通过Web页面返回给用户,以便修改。
从技术的角度看,数据采集的系统实现包括数据上传、下载及校验报错的用户Web应用,以及数据的批量补录、加载系统的实现。
下面主要就模板设计、业务管理及数据补录的规范性校核三方面做以讨论。
数据采集模板设计
数据采集模板通过Web页面发布。
用户可以通过Web页面下载。
数据采集模版设计的核心包括三方面:
⏹第一方面是数据采集模板对数据项的拆分和组合。
这里的含义是:
数据采集模板的设计不是孤立定义的,它需要在了解银行原始业务数据分布及业务数据管理惯例的基础上,保证数据采集时的效率及针对性,体现银行的业务管理要求。
如:
Ø如何按照业务部门管理条线(如对公信贷/个人住房贷款/信用卡/授信管理/其它等)、或业务分支机构、或是按数据对象归属的完整的业务流程分别进行分组拆分设计,以利用模版的管理和高效使用;
Ø如果一个模版中的数据项过多,如何按照管理要求及业务特征的不同对数据项进行分组。
⏹第二方面是采集数据对象的详尽定义,主要内容有:
Ø含有对每一个数据项含义的说明;
Ø含有对每一个数据项类型的说明,例如Char、Date、Decimal等;
Ø含有对每一个数据项格式的说明,例如,日期字段必须是YYYY-MM-DD等;
Ø含有对每一个数据项值域的说明,例如,含有哪些值,或者在什么范围内等;
Ø对于可供选择的值域,在用户输入时要求用下拉列表限制;
⏹第三方面是数据采集的控制信息及跟踪信息的定义。
如:
Ø采集时间、采集人、采集机构、采集批次、重新报送标志等。
数据采集的业务管理与报送制度
数据采集的业务管理与报送制度需要考虑:
采集的业务部门及填报的岗位、采集的时间周期、出错处理流程。
⏹采集的业务部门,根据业务管理条线及应用系统分布定义数据采集的责任部门;
⏹填报方式。
如果填报的内容已经批量存在,无需逐条人工填制或拷贝,可以利用批量转换工具把已有的内容转换成要求的填报格式;
⏹填报的岗位及权限设置。
只有经过授权以后该业务部门的该岗位填报的数据才算有效并得到处理,否则视为无效的填报或者XX的填报;
⏹采集的时间周期。
根据采集的数据更新性质和监控的时效要求进行相应的设置:
日、周、月、季等;
⏹出错处理流程。
在每次填报结束,提交前需要填写相应的控制信息,比如:
填报的机构、日期、批次,在系统发现错误,或者填报人事后发现错误,可以根据这些信息进行删除,并重新提交正确的填报。
数据补录的规范性与完整性检查
数据采集与补录流程中的校核模块须对数据做如下校验:
⏹检查不允许为NULL的字段是否为NULL;
⏹检查数据格式是否符合指定格式,例如日期字段格式是否为YYYY-MM-DD等;
⏹检查数据是否在指定值域范围内:
Ø如果是可供选择的值域,输入数据是否在可供选择的范围内;
Ø如果是固定范围的值域,输入数据是否在该范围内;
Ø检查数据的长度是否满足要求;
Ø检查有完整性约束的字段,是否满足完整性约束要求。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 治理 质量 提升 整改