企业大数据治理平台需求规格说明书.docx
- 文档编号:30813332
- 上传时间:2024-01-30
- 格式:DOCX
- 页数:299
- 大小:13.95MB
企业大数据治理平台需求规格说明书.docx
《企业大数据治理平台需求规格说明书.docx》由会员分享,可在线阅读,更多相关《企业大数据治理平台需求规格说明书.docx(299页珍藏版)》请在冰豆网上搜索。
企业大数据治理平台
需求规格说明书
目录
1. 概要 4
1.1. 阅读对象 4
1.2. 名词解释 4
2. 产品概要 4
2.1. 产品结构 4
2.2. 模块概要说明 5
2.2.1. 标准管理 5
2.2.2. 目录管理 6
2.2.3. 元数据管理 6
2.2.4. 数据归集 8
2.2.5. 数据开发 8
2.2.6. 数据资产 8
2.2.7. 质量管理 8
2.2.8. 控制台 8
2.2.9. 运维监控 8
2.2.10. 工作台 8
2.3. 各模块之间关系 9
3. 业务流程 9
4. 功能说明 10
4.1. 标准管理 10
4.1.1. 关联模块说明 10
4.1.2. 主题标准 11
4.1.3. 数据标准 12
4.1.4. 维度管理 15
4.1.5. 维度映射标准 16
4.1.6. 元模型标准 17
4.1. 目录管理 19
4.1.1. 关联模块说明 20
4.1.2. 功能介绍 20
4.1.3. 关键流程说明 20
4.1.4. 详细说明 20
4.1.5. 参考界面 23
4.2. 元数据管理 24
4.2.1. 元数据管理 25
4.2.2. 元数据采集管理 40
4.2.3. 元数据分析 55
4.3. 数据归集 63
4.3.1. 数据全量归集 63
4.3.2. 数据增量归集 65
4.4. 数据开发 67
4.4.1. 关联模块说明 67
4.4.3. 数据探索 68
4.4.4. 脚本开发 74
4.4.5. 数据处理开发 79
4.5. 数据资产 198
4.5.1. 数据资产视图 198
4.5.2. 数据采集视图 200
4.5.3. 数据治理视图 203
4.5.4. 数据服务视图 205
4.6. 质量管理 206
4.6.1. 关联模块说明 207
4.6.2. 规则和任务管理 207
4.6.1. 数据质量报告 224
4.6.2. 数据质量评估 227
4.6.3. 质量问题跟踪 232
4.7. 控制台 236
4.7.1. 关联模块说明 236
4.7.2. 系统初始化 237
4.7.3. 系统权限管理 240
4.7.4. 系统资源管理 243
4.7.5. 系统团队管理 251
4.7.6. 租户管理 253
4.7.7. 工作流 256
4.7.8. 操作日志审计 257
4.8. 运维监控 258
4.8.1. 调度管理 258
4.8.2. 任务监控 275
4.8.3. 资源监控 279
4.8.4. 告警管理 286
4.8.5. 质量任务监控 289
4.9. 工作台 292
4.9.1. 我的申请任务 292
4.9.2. 我的审批代办 293
4.9.3. 修改密码 294
4.9.4. 消息中心 295
4.9.5. 退出 297
5. 非功能性需求 297
1.概要
1.1.阅读对象
设计、开发、测试和维护人员
1.2.名词解释
名词
解释
系统管理员
指的是系统超级管理员
管理员
指的是具有特定管理角色权限用户
数据归集
将外部数据源的数据,转为内部数据源数据的过程,例如:
将各委办数据从委办前置库接入数据中心接口表;
2.产品概要
2.1.产品结构
2.2.模块概要说明
2.2.1.标准管理
标准化管理主要是针对主题标准、数据标准、维度标准、元模型标准等一系列系统标准化的配置。
依据业务需求,配置不同的主题目录、不同的标准要求、维度要求等,其可为业务制定一套标准,让系统数据更加规范,减少数据冗余,使数据更加清晰、统一,方便使用者对系统的使用和后期的维护。
流程说明,由管理员对数据进行数据的录入;其次,对新增的标准数据提交发布,进入审批阶段,其中审批层级由审批配置的流程控制,如不配置,默认提交发布即生效;
审批通过后,标准管理模块中的数据可被数据质量、元数据管理等模块应用;
2.2.2.目录管理
使用角色:
业务人员
应用场景:
实现数据目录的创建、查询、申请使用等以及支持与外部目录系统的对接。
2.2.3.元数据管理
元数据管理模块对本系统中的元数据对象进行统一管控。
管控的元数据对象包括表、文件、指标等(具体管控的对象以现场的实际需求为准)。
通过元数据管理可以直观的(提供按条件查询功能)看到系统中已有的各个元数据对象,可查看元数据对象的各属性值并对其进行修改、增加和删除元数据对象。
Ø模块流程图
流程说明,该模块是针对各种元数据信息进行管理。
首先,用户需对各种的元数据信息录入到系统,其中,元数据的类型包括,物理表元数据、物理视图元数据、文件元数据、指标元数据、报表元数据、标准表模型元数据、半结构化数据元数据;其次,对已新增的各种元数据信息可进行发布,提交发布后,需要对发布的元数据信息进行审核,审核通过则发布成功,如无审核流程,则直接发布成功;
Ø主要包括以下元数据的管理
1.物理表元数据管理,主要是针对生产过程中的实体物理表进行管理,通过标准化管控物理模型的技术属性信息、业务属性信息、管理属性信息从而全面的掌控实体表;支持检索、元数据的增、删、改、查,批量导出、导出操作,其中已发布元数据信息只能查看;
2.物理视图元数据,参考物理表元数据管理,元数据对象是物理视图;支持检索、元数据的增、删、改、查批量导出、导出操作,其中已发布物理视图元数据信息只能查看;
3.文件类元数据,文件信息的统一管理,支持检索、元数据的增、删、改、查批量导出、导出操作。
4.指标元数据,是指标计算的基本信息。
包含指标名称、计算口径、包含维度、归属业务部门等信息。
针对指标元数据进行登记管理,包括指标的基础信息、指标目标值信息、其他相关信息等模块,从多个维度进行指标的登记管理,便于后续的指标使用、查询和监控;
5.报表元数据,报表应用的基本信息。
支持检索、元数据的增、删、改、查批量导出、导出操作;
6.标准表模型元数据,主要是标准表元数据信息进行管理,包含标准表名称、计算口径、周期、生命周期等信息;
7.半结构化数据元数据,主要是针对物理表半结构化的数据进行管理,包括半结构化数据名称、类型,计算口径、归属部门、生命周期等;
2.2.4.数据归集
将外部数据源的数据,转为内部数据源数据的过程,例如:
将各委办数据从委办前置库接入数据中心接口表;
2.2.5.数据开发
数据工厂提供数据处理程序的开发,用户可以根据现有的元模型和需求,通过此模块开发DP程序供数据加工使用。
2.2.6.数据资产
数据资产视图查询,包括服务器资源、系统运行、数据资源等信息等
2.2.7.质量管理
数据质量维度包括:
一致性、准确性、完整性、合理性、完整性、唯一性。
质量管理通过对数据的规则的配置,然后对数据执行相应的规则,检测数据是否合格,将数据的检查结果以图表的方式直观的显示出来,方便了解数据的组成。
将不合格的数据标注出来,使用户能够准确的了解到哪些数据是不合格的,不符合什么规则,便于后期对不合格数据进行整理和修改。
2.2.8.控制台
控制台模块包括系统初始化、权限管理、资源管理、团队管理、工作流、服务管理几部分,主要对系统进行常规的配置和管理,包括系统菜单管理、用户管理、团队管理、资源管理(数据库、服务器)、团队管理等。
同时为了更安全、更有效、条理清晰地使用系统,所以系统必须具备完善的权限管理和流程控制机制,故而还包括角色管理、权限管理、数据授权(最小粒度字段级)、模型上线下线审批流程、服务的管理等。
2.2.9.运维监控
调度列表可以新增调度任务来配置调度所需信息,调度监控则监控调度任务的运行情况。
任务需要定时或依赖执行时需将任务配置为调度。
如:
每天需要从业务系统抽取数据,则需要每天执行任务,则将该任务配置为调度任务,发布后便可每天定时自动执行任务。
2.2.10.工作台
提供与个人相关的基础功能,如我的待办、我的已办等;
2.3.各模块之间关系
数据标准落地,让数据的归集、清洗、加工融合以及开放等数据治理过程均有标准可循;元数据管理进行数据定义的获取及管理,为数据归集、加工、开放等关键活动,提供必要的元数据支持;通过元数据管理、数据工厂、运维监控构建模型设计、数据开发、调度监控等基础能力,为数据仓库的建设提供持续的数据加工生产能力;通过数据质量管理,构建数据质量保障体系,确保数据质量的持续提升,使得数仓数据的可靠、可信、可用化程度不断提升;通过资产视图构建数据资产全景视图,使得ETL过程、数据资产、数据共享情况一览无余;
3.业务流程
产品需要内置工作流引擎,所有功能使用到的流程皆由流程设计模块预置的流程来实现;
²数据标准相关的流程如下:
主题发布和停用流程
字典发布和停用流程
命名标准发布和停用流程
业务标准发布和停用流程
²元数据管理相关流程如下:
物理模型发布和停用流程
逻辑模型发布和停用流程
文件发布和停用流程
²数据质量管理相关流程如下:
质量整改流程
²数据开发相关流程如下:
DP程序发布和停用流程
脚本程序发布和停用流程
²运维监控相关流程如下:
调度发布和停用流程
质量整改流程相对比较复杂,详情参看数据质量跟踪章节,其它预置的流程默认为发起后,自动审批通过,产品用于项目时,可根据业务需要进行流程的配置修改;
4.功能说明
4.1.标准管理
4.1.1.关联模块说明
流程说明,标准管理主要是由管理员对标准管理的信息进行录入、发布、维护的工作(发布流程详见2.2.2标准管理);所有标准数据必须经由审批后发布才能生效使用,如无需审批,发布直接生效;生效后的时候才能为元数据管理、数据质量等模块提供数据支撑;
主要数据支撑,详细如下:
1.控制台-工作流为标准管理提供工作审批流程支撑;
2.标准管理-主题标准为数据项标准提供主题目录支撑;
3.标准管理-数据项标准为数据质量提供规范支撑;
4.标准管理(除维度映射管理、元模型标准为)为元数据提供数据支撑;
5.维度标准为维度映射管理提供维度映射管理;
4.1.2.主题标准
4.1.2.1.功能介绍
对数据进行主题配置,选择相关主题关联数据库、程序等相关对象。
对数据
进行更细致的分类,使得更容易查找和使用相关的数据。
新增的主题名称发布才能生效,生效后才能被其他功能模块引用。
1.默认展示所有主题信息
2.查询条件:
全部关联对象、主题或者编码搜索;
3.查询结果:
主题名称、主题编码、状态、主题、备注、操作;其中,操作包括:
版本管理、删除、查看;
4.操作按钮:
新增、批量导入、批量导出、发布、停用、删除;
4.1.2.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
主题编码
输入框
填写主题编码
是
2
主题名称
单选
填写主题名称
是
3
备注
单选
填写备注
否
4
对象类型
单选
选择主题需关联的对象类型
包括:
所有、数据库、逻辑模型、业务标准、指标、字典标准、文件元数据、服务器
页面下拉显示
是
5
对象信息
单选
根据对象类型联动选择对象信息
页面下拉选择
是
4.1.2.3.参考界面
4.1.3.数据标准
数据标准主要是管理员对数据的命名标准、字典标准、数据项标记性规范化管理,包括对字段的名称等规范进行定义、字典标准的定义、数据项标准的定义
4.1.3.1.命名标准
4.1.3.1.1.功能介绍
不仅仅需要对表字段进行命名的规范,同时也需要对表名进行命名的规范,
例如:
将表的名称以主题_数据库_XXX的方式进行命名,更加清晰的展示出表名
是属于哪一个主题,哪一个数据库的。
使数据的来源更加的清晰可见,让整个系
统更加清晰更利于操作和维护。
1.默认展示所有命名标准数据信息;
2.查询条件:
字段中文名、字段英文名
3.查询结果:
标准名称、使用对象、标准分隔符、规则格式、最大长度、备注说明、状态、创建时间、更新时间、操作;
4.操作按钮:
发布、停用、新增、批量导入、批量导出、删除、编辑;
4.1.3.1.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
规则名称
输入框
填写规则名称
按照字典的标准填写
是
2
适用对象
单选
选择适用对象
包括:
页面下拉
是
3
数据库
单选
选择对应数据库信息
根据适用对象联动数据
否
4
分隔符
单选
选择分隔符
包括:
页面下拉
是
5
测试规则
单选
选择字段标准对应的测试规则,包括数据库、主题、层次
选择不同的规则显示不同的结果
是
4.1.3.1.3.参考界面
4.1.3.2.字典标准
4.1.3.2.1.功能介绍
对表名、表字段等进行命名规范,将频率使用极高的词指定为标准元素,命
名标准化是对用户以后的标准制定和系统的某些命名推荐功能具有指导作用,方
便查找数据,让整个系统更加清晰更利于操作和维护
1、默认展示所有字典标准数据
2、查询条件:
关键字、字段中文名、字段英文名;
3、查询结果:
字段英文名、字段中文名、主题、创建时间、修改时间、创建人;
4、操作按钮:
发布、停用、新增、批量导入、批量导出、删除、编辑;
4.1.3.2.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
字段名
输入框
填写字段英文名
按照字典的标准填写
是
2
字段中文名
输入框
填写字段中文名
是
3
归属主题
单选
选择字段的归属主题
主题数据来源于主题标准
否
4
备注
单选
填写备注
否
4.1.3.2.3.参考界面
4.1.3.3.数据项标准
4.1.3.3.1.功能介绍
维度映射,指维度的码值和各个业务系统的映射对应关系
1.默认展示所有数据项标准数据信息;
2.查询条件:
关键字、标准编码英文名/中文名
3.查询结果:
标准编码、标准英文名、标准中文名、标准别名、相关标准、主题、标准含义、数据类型、状态、操作;
4.操作按钮:
新增、保存;
4.1.3.3.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
标准编码
输入框
填写标准编码
是
2
标准中文名
输入框
填写标准中文名
是
3
标准英文名
输入框
填写标准英文名
是
4
标准别名
输入框
输入标准别名
是
5
主题
单选
选择数据项所属的主题
主题数据来源于主题标准
页面下拉
是
6
相关标准
输入框
输入相关标准信息
是
7
标准定义
输入框
输入该数据项标准的描述信息
是
8
数据类型
单选
选择数据项标准类别
包括:
比例类、编码类、标志类、代码类、金额类、日期类、日期时间类、时间类
是
9
敏感级别
单选
选择数据项的敏感级别信息
包括:
一级(高)、二级(中)、三级(低)、非敏感数据
否
4.1.3.3.3.参考界面
4.1.4.维度管理
维度管理主要是由管理员根据业务需求对维度的信息进行配置、管理;主要包括维度标准、维度映射管理;维度标准是定义系统业务涉及的维度类型、如层次,性别等;层次为数据层次,可分为贴源层、应用层等,性别定义为F,M等;
维度标准为维度映射管理提供数据支撑;维度映射管理根据维度的信息映射到具体的字段值;
4.1.4.1.维度标准
4.1.4.1.1.功能介绍
对系统进行各类维度的设置,方便各类数据的管理和维护。
1、默认展示所有维度标准数据;
2、查询条件:
关键字
3、查询结果:
维度类型编码、维度类型名称、备注、操作、维度编码、维度名称、备注、操作;
4、操作按钮:
发布、停用、新增、批量导入、批量导出、删除、编辑;
4.1.4.1.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
维度类型编码
输入框
填写维度类型编
是
2
维度类型名称
输入框
填写维度类型名称
是
3
备注
输入框
填写备注信息
否
4.1.4.1.3.参考界面
4.1.5.维度映射标准
4.1.5.1.功能介绍
维度映射,指维度的码值和各个业务系统的映射对应关系
1.默认展示所有维度映射标准信息;
2.查询条件:
维度类型编码、
3.查询结果:
;
4.操作按钮:
新增、保存;
4.1.5.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
所属数据库
单选
选择需要映射的数据库
页面下拉
是
2
数据库用户
单选
选择对应的数据库用户
根据【所属数据库】选择的数据库联动过滤用户信息
是
3
映射字段值
输入框
填写映射字段值
是
4
映射字段值含义
输入框
填写映射字段值的含义
是
4.1.5.3.参考界面
4.1.6.元模型标准
4.1.6.1.功能介绍
元模型主要是元数据的模型进行规范化构建,实现统一元模型管理;
1.默认展示所有元模型数据信息;
2.查询条件:
对象类型,属性组、状态;
3.查询结果:
对象类型、属性组、属性类别、属性名称、属性中文名称、输入类型、是否为空、是否只读、序号、说明、属性状态、操作;
4.操作按钮:
新增属性;
4.1.6.2.详细说明
序号
字段
页面类型
说明
备注
显示规则
是否必填
1
对象类型
单选
选择对象类型
包括:
数据库、数据库用户、文件模型、文件模型字段、文件schema、调度、指标、报表、逻辑模型、程序类型、存储过程、视图、服务器、程序脚本、物理模型、团队、主题、数据项标准、字典标准、维度标准、命名标准、逻辑模型字段、物理模型字段、视图字段、数据服务、主数据
页面下拉
是
2
属性组
单选
选择属性组信息
包括:
基本属性、拓展属性
是
3
属性类别
单选
选择属性类别信息
包括:
所属信息、资源大普查、基础信息、扩展信息、数据类别信息、数据安全信息、核心信息、技术相关信息、业务属性、技术属性、管理属性
是
4
属性名称
输入框
填写属性名称
是
5
属性中文名
输入框
填写属性中文名称
是
6
属性用途
单选
选择属性用途
包括:
全部、页面、导入导出
否
7
依赖条件
输入框
填写依赖条件信息
否
8
顺序号
输入框
填写顺序号
限制纯正数
否
9
属性状态
单选
选择属性状态
包括:
停用、启用
否
10
输入类型
单选
选择元模型的输入类型
包括:
文本框、复选框、多选下拉框、单选框、文本域、级联选择器、下拉框
是
11
属性要求
单选
选择属性要求
包括:
可以为空、只读
否
12
默认值
输入框
填写默认值信息
否
13
提示信息
输入框
填写提示信息
否
14
最小长度
输入框
填写最小长度
否
15
最大长度
输入框
填写最大长度
否
16
说明
输入框
填写说明信息
否
4.1.6.3.参考界面
4.1.目录管理
4.1.1.关联模块说明
1.关联“元数据管理”模块,通过内部接口的形式将元数据信息给到数据目录首页,并以树状结构展示;
2.关联“数据归集”模块,通过“手工创建”或“上传目录”按钮生成的数据信息,首先被“数据归集”到数据湖;
3.关联“控制台”模块,目录的“发布”与“停用”模块审批流程需要与控制台中的“工作流”功能关联;关联控制台模块下的租户管理功能,各个机构之间数据独立,未发布的数据目录只能本机构查看与操作;
4.关联“工作台”模块,流程审批任务将在工作台下的我的任务中操作;
5.关联“数据共享”模块(后期)。
4.1.2.功能介绍
本功能用于实现数据目录的创建、提交、发布、审批、申请使用、停用等功能,主要使用对象为业务人员,即各个机构(部门)。
功能入口:
用户登录成功后在数据目录首页进入进行相关功能的操作,审批流程生成的任务将在工作台—>我的审批功能中进行操作。
4.1.3.关键流程说明
1.数据目录发布与停用流程:
机构人员只能发布或停用权限内的数据目录
机构内人员发起à初级审批à中级审批à高级审批à流程结束(流程节点可以自定义)
2.数据目录申请使用流程:
一个机构向另外一个机构申请数据目录的而使用权。
A机构发起申请àB机构中级审批àB机构高级审批à流程结束(流程节点可以自定义)
4.1.4.详细说明
4.1.4.1.数据目录首页
1
2
2.1
2.1.1
2.1.2
2.1.3
2.1.4
2.1.5
2.1.5.1
1.数据描述
(1)列表功能
l序号:
数值,整型
l表名称:
文本,字符
l来源部门:
文本,字符
l更新频率:
文本,字符
l字段数量:
数值,整型(0或正整数)
l提交状态:
文本,系统自动判断
l共享状态:
文本,字符
(2)创建目录功能
以页签形式展现
1)目录基础信息
l目录ID:
系统规则自动生成,规则参考:
目录名称的首字母组合_时间戳_6位随机数,该字段不展示在页面中,唯一标识
l目录名称:
文本框,字符,必填;
l所属机构(部门):
下拉选择,枚举值可以在系统维度管理中配置,系统自动带入系统登录人员所属的机构(部门),必填
l所属主题:
下拉框,枚举值可以在系统维度管理中配置,必填
l所属应用:
下拉框,枚举值可以在系统维度管理中配置,必填
l备注说明:
文本框,非必填
2)表基础信息
l表中文名称:
文本类型,字符,必填;
l表英文名称:
文本类型,字符,必填;
l备注说明:
文本框,非必填
3)表字段信息
以列表形式展示与新增
l字段名称:
文本框,字符,必填
l字段类型:
下拉框,必填,枚举值可以在系统维度管理中配置,例如:
char、varchar、int等
l字段长度:
文本框,数值
l字段描述:
文本框,必填
l备注说明:
文本框,非必填
4)表样例数据
以列表形式展示与新增
根据表字段信息自动生成样表表头,支持行新增录入样例数据
(3)上传目录功能
1)下载模板
支持EXCEL格式上传数据
数据字段信息同“创建目录”功能
2)上传目录
2.操作描述
(1)列表页操作
l创建目录:
指的是手工录入目录信息,详见“目录创建页面”操作;
l上传目录:
指的是上传目录信息,详见“上传目录操作”;
l提交按钮:
草稿状态的目录,才能够提交,提交后,当前机构内部(部门内部)人员可以看到该数据;
l发布按钮:
处于提交状态且未发布与共享状态的数据才能够进行发布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据 治理 平台 需求 规格 说明书