中国移动省级经营分析系统数据质量管理系统业务技术规范200413.docx
- 文档编号:9712822
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:77
- 大小:866.86KB
中国移动省级经营分析系统数据质量管理系统业务技术规范200413.docx
《中国移动省级经营分析系统数据质量管理系统业务技术规范200413.docx》由会员分享,可在线阅读,更多相关《中国移动省级经营分析系统数据质量管理系统业务技术规范200413.docx(77页珍藏版)》请在冰豆网上搜索。
中国移动省级经营分析系统数据质量管理系统业务技术规范200413
中国移动省级经营分析系统
数据质量管理系统
业务技术规范
TheBusinessandTechnicalSpecificationonDataQualityManagementSysteminBusinessAnalysisSupportSystem
版本号:
2.0.0
前言
为更好地及时获取、分析、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套省级经营分析系统数据质量内部控制的管理体系,利用数据质量监控模块进一步提升数据质量管理系统对经营分析系统的支撑能力,特制订本规范。
本标准由中国移动通信有限公司提出并归口。
本标准以中移有限业【2007】XX号印发。
本标准起草单位:
中国移动通信有限公司。
本标准主要起草人:
本标准解释单位:
中国移动通信有限公司。
1.范围
本规范包含了中国移动经营分析系统数据质量内部控制的管理体系,以及数据质量管理系统业务技术规范方面的内容。
本规范适用于中国移动省级经营分析系统数据质量管理系统(v2.0)的建设。
本规范重点描述了以元数据管理为基础的数据质量监控功能,引入数据质量监控模块,并提出了数据质量全程监控的概念。
旨在为数据运营打下基础,提升数据质量管理能力,使经营分析系统具有更高的实用价值。
2.引用标准
《中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)》
《中国移动经营分析系统元数据管理规范V1.0》
《中国移动省级经营分析系统数据质量控制指导意见》
3.术语和定义
序号
名词
解释
1
元数据
是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。
2
技术元数据
技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一级经营分析系统接口等子系统的数据特征。
3
业务元数据
业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。
4
管理元数据
管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。
5
CWM
CWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。
6
信息地图
信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多视角的展现。
7
数据质量监控
自动获取经营分析系统各环节的数据质量信息,结合元数据库中的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告。
8
数据质量监控
代理(Agent)
是指部署在经营分析系统数据处理流程各阶段上的,完成数据质量情况采集、检查、报告等功能的驻留程序。
9
数据质量监控
服务器
对分布式数据质量监控代理进行管理和服务的程序模块。
4.符号和缩略语
缩写
英文描述
中文描述
BOSS
BusinessOperationSupportSystem
业务运营支撑系统
ODS
OperationalDataStore
操作型数据存储
CORBA
CommonObjectRequestBrokerArchitecture
公共对象请求代理体系结构
CORBAIDL
CORBAInterfaceDefinitionLanguage
CORBA接口定义语言
CWM
CommonWarehouseMetamodel
公共仓库元模型
ETL
ExtractionTransformationLoading
抽取、转换和加载
JMI
JavaMetadataInterface
Java元数据接口
OLAP
On-lineAnalysisProcess
在线分析处理
XMI
XMLMetadataInterchange
XML元数据交换
5.概述
中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年发展,已初步建立了数据质量管理机制,有效保障了经营分析系统的数据质量。
随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省公司对经营分析系统如何保障数据质量提出了更高要求。
为了全面及时地采集、检查、报告、解决和总结经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,中国移动特制定《中国移动省级经营分析系统数据质量管理系统业务技术规范(v2.0)》(以下简称“本规范”),旨在指导和规范各省(直辖市、自治区)公司的数据质量管理系统的建设、工程实施以及日常运维管理工作。
6.总体说明
6.1数据质量管理概述
在经营分析系统发展的不同阶段,经营分析系统对数据质量的关注点也有所不同。
早期对数据质量的关注点主要是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量的范畴。
根据中国移动省级经营分析系统前期的建设经验,目前系统关注的数据质量问题主要包括以下几个方面内容:
1.数据质量的六大基本要素是否满足,所谓六大基本要素是指:
Ø完整性:
主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
Ø唯一性:
指主键唯一和候选键唯一两个方面;
Ø一致性:
指统一数据来源、统一冗余存储和统一数据口径;
Ø精确度:
指计量误差、度量单位等方面的精确度;
Ø合法性:
主要包括格式、类型、域值和业务规则的有效性;
Ø及时性:
指数据刷新、修改和提取等操作的及时性和快速性。
2.如何从用户视角衡量数据质量,重视用户对数据的满意程度;
3.如何建立基于CWM规范的元数据管理功能平台,支持数据质量管理,为将来全网共享元数据奠定基础;
4.如何建立数据质量监控手段,及时发现、报告、处理经营分析系统数据质量问题;
5.如何通过建立有效的数据质量管理体系来保障和提升数据的价值。
6.2主要内容
本规范用以指导经营分析系统数据质量管理系统建设的全过程。
描述了经营分析系统数据质量管理需求及范围、数据质量管理总体应用体系框架,明确规定了数据质量管理系统中的元数据支撑功能及其它支撑功能,确定了数据质量管理的基本功能和流程,重点强调了数据质量监控模块的功能和作用。
有关元数据建设的详细内容请参见《中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)》中的《附件1省级经营分析系统元数据管理功能技术规范.doc》和《附件2中国移动经营分析元数据管理规范.doc》,上述两个附件给出了元数据管理建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据支撑管理功能的建设提供参考依据。
6.3系统建设目标
本规范借鉴了先期元数据试点和经营分析系统数据质量管理系统(v1.5)部分省份的建设经验,同时参考了《经营分析系统元数据管理规范v1.0》和OMG组织的CWM国际标准等文献,本期重点实现以下建设目标:
1.在经营分析系统数据处理主要阶段设置数据质量监控点,支持对数据质量的全程监控。
在各数据监控点上,实现多角度、多方式、可配置的约束规则,提供常见问题的自动处理方法。
2.完善数据质量监控模块,建立有效的数据质量监控机制,提供全面及时的数据质量报告,控制和预防错误范围的扩大。
加强数据质量监控技术与管理手段的配合,着重关注经营分析系统数据来源和数据输出的数据质量,明确相关责任。
3.建设符合CWM规范的元数据管理平台,为全网经营分析系统的数据质量管理、数据资源管理和数据运营奠定基础。
6.4实施建议
本规范是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本规范为基础进行扩充与细化。
建议如下:
1.在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行管理和维护;
2.元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据共享和交换的基础。
元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。
各省在遵循CWM标准的前提下,可以根据自身实际情况,决定自行建设还是采购元数据管理工具;
3.各省可以根据自身业务情况扩展《中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)》附件中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;
4.本规范中列举的各类应用,如数据质量监控、信息地图、需求变更影响分析、项目管理支撑、数据集市支撑等应用是本期建设重点关注的内容,各省可以根据实际情况增加其它相关应用。
7.数据质量管理需求
7.1数据质量问题
经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。
如图7-1所示。
图7-1数据质量的四个问题域
7.1.1信息问题域
图7-2信息问题域
信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。
产生这部分数据质量问题的原因主要有:
元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。
元数据描述及理解错误中的相关元数据主要包括:
♦业务元数据——主要包括业务描述、业务规则、业务术语、业务指标口径等。
♦技术元数据——主要包括接口规范、执行顺序、依赖关系、ETL转换、数据建模和工具等方面的内容。
数据度量和变化频度提供了衡量数据质量好坏的手段。
数据度量主要包括完整性、唯一性、一致性、准确性、合法性。
变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。
7.1.2技术问题域
图7-3技术问题域
技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。
数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:
1.数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。
2.数据获取质量问题主要包括采集点不正确、取数时间点不正确以及接口数据在获取过程中失真。
如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。
3.数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。
4.数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。
5.数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。
6.数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。
7.1.3流程问题域
图7-4流程问题域
流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:
1.创建流程质量问题主要指操作员数据录入时缺乏审核流程;
2.传递流程质量问题主要指通信流程沟通不畅;
3.装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;
4.使用流程质量问题主要指数据使用流程缺乏流程管理;
5.维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;
6.稽核流程质量问题主要指缺乏数据错误反馈流程。
7.1.4管理问题域
图7-5管理问题域
管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。
人员管理所产生的质量问题主要指:
(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;
(2)没有明确的数据质量目标;
(3)经营分析系统中的数据质量问题的优先级不够;
(4)集团公司缺少管理数据质量的管理办法等;
人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;
通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。
在管理方面,本规范侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第8章管理元数据的相关定义。
7.2系统功能需求
在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。
因此有必要引入元数据管理的相关功能,提供对数据模型、指标统计口径及处理过程等数据实体和处理的标准定义和描述。
数据质量管理系统利用元数据库存储技术、业务、管理方面对数据质量的约束规范;利用知识库存储数据质量问题和处理过程;通过制定相关管理流程来保证经营分析数据质量的日常管理。
本规范介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管理流程来保证经营分析数据质量的日常管理。
数据质量管理系统的基础是遵循CWM标准的元数据管理支撑功能的实施。
根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系如下:
♦数据质量管理包含元数据管理
♦元数据管理功能为数据质量管理系统提供支撑
7.2.1元数据管理
为了实施数据质量管理,需要业务数据的有关统计口径、数据来源、数据约束关系等元数据的支撑。
数据质量管理系统要求建立符合国际主流规范CWM的元数据管理支撑平台。
它负责管理整个经营分析系统的技术、业务和管理三类元数据,形成元数据全局视图,展现经营分析系统数据实体的组成、关系以及处理转换的过程。
7.2.2数据质量监控
在数据质量管理系统中,数据质量监控是基础功能。
数据质量监控实时采集数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据稽核诊断,然后直观展现检查结果。
数据质量管理人员可根据告警信息,采取相应的质量控制行动。
最后,还应评估总结本次数据质量监控活动的有效性和及时性,以利于以后质量管理工作的改进。
在数据质量监控工作中对质量问题的监控、诊断和处理结果应整理形成质量问题处理案例,并记录到知识库中,以便进行知识共享。
7.2.3项目管理支撑
数据质量管理也涉及经营分析系统相关项目的日常管理。
将项目管理的内容纳入质量管理,可全面、及时记录系统的建设状况和使用情况,有效支持经营分析系统的全员使用。
项目管理支撑包括:
工作分配管理、系统使用状况分析等。
8.系统架构
8.1系统体系
数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图8-1所示:
图8-1数据质量管理系统体系结构
8.2源系统层
8.2.1经营分析系统数据处理流程
经营分析系统的数据处理流程主要涉及源系统接口数据、ETL过程、数据仓库、数据集市、前端应用等处理阶段。
数据质量管理系统对数据的管理和监控范围涵盖了全部这些处理阶段。
8.2.2数据质量监控点
数据质量管理系统在数据处理的各阶段都应设立数据质量监控点,并使稽核诊断工作尽量前移。
本期系统规定的数据质量监控点设置如下:
(1)各数据源接口
(2)ETL处理过程(对数据抽取、转换的主要阶段,以及加载到数据仓库前都应设置监控点)
(3)数据仓库(对各种数据粒度的汇总应设置监控点)
(4)数据集市(对地市和部门的集市分别应设置监控点)
(5)前端展现应用
8.3存储层
存储层中存储的信息主要包括三个部分:
(1)元数据库:
存储技术元数据、业务元数据和管理元数据,为数据质量管理系统提供基本的数据实体和处理描述及其映射关系,是质量管理的支撑基础;
(2)运行状况信息库:
存储从各个数据质量监控点上采集的有关系统运行状况的信息及质量稽核过程信息,是稽核诊断的主要输入信息;
(3)数据质量知识库:
存储数据质量管理中对质量问题的识别、诊断和处理结果的记录信息,作为解决质量问题的知识共享。
以上三种数据库,在逻辑上可进行独立设计,在物理实现上可以部署在同一台服务器上。
8.3.1元数据存储
元数据是数据质量管理系统实现的核心,是描述和控制经营分析系统中数据的数据,为数据质量管理体系架构的功能层和应用层提供信息支撑。
元数据库中存储的元数据分为三类:
技术元数据、业务元数据和管理元数据。
8.3.1.1业务元数据
本部分将业务元数据划分为业务术语、业务描述、业务指标和业务规则四个部分,其中业务规则、业务术语和业务描述共同完成对业务相关信息的事实表述。
数据质量管理系统通过对这些业务元数据的映射,可以得到对应的数据质量检查规则。
各省公司可以根据自身业务需求对业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规范。
8.3.1.1.1业务术语
是一个名词或者名词短语,是对一种共识的定义,例如:
一个有效的账户被定义为此账户有余额且其有效期未过。
8.3.1.1.2业务描述
提供对省公司各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括:
♦业务基本描述
♦业务管理规定,包括业务组织、业务流程、资费标准
♦业务统计
业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:
开通具体业务的客户必须至少拥有一个有效的账户。
8.3.1.1.3业务指标
面向业务分析人员,对业务关键信息的解释。
业务指标需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属部门、创建者、类别、数据来源等。
8.3.1.1.4业务规则
业务规则是一种描述信息,定义和约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。
8.3.1.2技术元数据
技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、一级经营分析系统接口等子系统的数据特征。
根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库和数据集市存储、分析应用、运行环境信息、质量管理过程六个部分,对各部分所包含的实体进行说明。
8.3.1.2.1数据源接口
经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管、智能网、DSMP、彩铃等外部系统与经营分析系统间接口的相关信息,包括:
♦运行环境相关信息
主要包含相关系统的主机信息、操作系统信息、数据库信息等;
♦数据接口定义信息
描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。
8.3.1.2.2ETL过程
ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有:
♦接口抽取
描述数据抽取过程的相关信息,针对具体接口,主要包含:
1)接口抽取条件:
接口抽取的前置条件和数据条件;
2)接口抽取周期:
日、月等;
3)接口抽取时间:
周期内的抽取时间;
4)接口抽取方法:
增量、全量等;
♦数据清洗、转换、装载
描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。
8.3.1.2.3数据仓库和数据集市存储
数据仓库存储涉及ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括:
♦数据仓库逻辑模型
逻辑数据模型是企业元数据的重要组成部分,其实现方式主要是将建模工具(例如:
ERWIN)中的模型信息纳入到元数据管理中。
♦数据存储结构信息
这部分内容反映了数据仓库的物理实体信息。
数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。
其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。
♦数据流及其处理逻辑
这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。
数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。
♦数据生命周期信息存储和检索
该部分内容主要记录了数据在不同生命周期所存放的位置。
通过元数据管理系统对不同类型以及不同生命周期的数据进行有效管理,支持对处于生命周期不同阶段的数据进行信息检索。
数据生命周期管理的具体解释请参见《中国移动省级经营分析系统规范总册(v2.0)》。
8.3.1.2.4分析应用
在数据仓库或数据集市基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一级经营分析系统接口等应用,分析应用元数据是指这些上层应用的相关信息,主要包括:
♦指标技术定义信息
包含指标定义、对应维度定义、指标统计口径、指标关系等信息;
♦多维数据信息
主要指对多维数据相关信息的提取,主要包括:
1)多维主题基本信息:
包含主题与指标、维度等的关系;
2)多维数据库信息:
鉴于主流的多维数据库都支持CWM标准,针对各省的建设情况,可以考虑选用元数据工具进行相关信息的提取;
♦一级经营分析系统接口
作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一级经营分析系统接口数据生成上传的元数据信息;
♦数据挖掘信息
♦应用使用状况信息
主要记录各业务应用的使用频次、使用人数等信息。
8.3.1.2.5运行环境信息
描述经营分析系统运行环境的相关信息,主要有:
♦任务调度信息
经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。
主要提取信息有:
任务基本信息、任务依赖信息、任务执行信息等。
♦系统运行环境信息
包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。
8.3.1.2.6质量管理过程
质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。
质量管理过程中的元数据的规则有两个来源:
一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阀值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。
主要包括以下内容:
1、规则库
规则是数据质量检查的具体标准,主要包括经营分析数据的约束规则和合理性规则,以及检查数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国移动 省级 经营 分析 系统 数据 质量管理 业务 技术规范 200413