数据治理工具项目投标书技术部分.docx
- 文档编号:8525322
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:53
- 大小:6.18MB
数据治理工具项目投标书技术部分.docx
《数据治理工具项目投标书技术部分.docx》由会员分享,可在线阅读,更多相关《数据治理工具项目投标书技术部分.docx(53页珍藏版)》请在冰豆网上搜索。
数据治理工具项目投标书技术部分
一、项目背景
二、项目目标
提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下:
(1)具备数据抽取转换装载、元数据管理、数据标准管理和数据质量管理四项功能。
(2)采用B/S模式,浏览器端兼容Chrome、FireFox等主流浏览器,服务器端可运行在Linux、Windows系统上,应用服务器兼容Tomcat7.0以上,JDK版本为1.7以上,数据库为Oracle或MySQL。
(3)支持集群模式。
保证7×24小时不间断持续运行,且计划外宕机时间控制在全年的0.2%以内、计划外宕机次数控制在全年4次以内,系统有效工作时间要求≥99.8%。
(4)支持高并发。
页面查询不高于2秒,复杂查询不高于5秒,一般页面数据更新处理时间不高于3秒,复杂数据更新不高于5秒。
(5)数据抽取速率高。
数据库到数据库不低于1000条/秒,文件到数据库不低于1000条/秒。
(6)根据以上性能指标要求提出硬件及网络的性能及规模配套的方案。
三、技术服务要求
3.1集成要求
投标产品需具有与国内自主成熟的数据交换共享平台和大数据基础平台软件有良好的集成兼容性。
3.2成熟度要求
投标产品或者模块是国内投产的成熟品牌,并且经过多个版本迭代,提供至少两个版本的产品著作权证书。
近五年内,在多个行业有成功应用案例,且至少有一个为政府或军队应用案例。
3.3技术要求
3.3.2元数据管理功能。
●元数据采集
Ø支持连接到源数据库系统,把元数据抽取到统一的元数据库;
Ø提供多种采集适配器,支持从主流关系型数据库、Hadoop大数据平台(hdfs、hive、hbase)、Excel模板等源头采集;
Ø支持采集任务配置,可实现一次性和定时采集,支持采集任务的执行、监控和日志。
●元数据模型管理
Ø可通过界面进行元数据的增、删、改、查操作;
Ø可通过界面创建、维护元数据模型,支持业务模型和技术模型的定义;
Ø支持通过界面创建并维护元数据模型间关系,包括组合关系、依赖关系等;
Ø提供将常用建模工具(包括PowerDesigner等)设计的数据模型导入的功能
●元数据版本管理
Ø支持元数据版本管理,包括:
版本号的设置,历史版本的查询与恢复,任意版本之间整体比对,批量版本发布等。
●数据关联分析
Ø提供数据地图功能,用于展示元数据间关系,支持系统、数据库、表、字段等多层级关系,支持逐级向下钻取;
Ø提供库级、表级、列级血缘分析、作业级血缘分析功能,提供血缘影响分析结果展示。
●其他功能
Ø将元数据以系统为单位导出到Excel;
Ø提供多维度的元数据检索查询功能。
3.3.3数据标准管理功能。
●数据标准维护
Ø支持数据元/信息项的模型定义与标准维护,包括业务属性、技术属性和管理属性;
Ø支持通过Excel模板导入数据标准模型;
Ø支持代码标准的元模型定义与标准维护,包括代码和代码项;
Ø支持数据标准的导出。
●数据标准映射
Ø支持标准映射到具体元数据和质量规则。
3.3.4数据质量管理功能。
●质量规则管理
Ø提供页面新增、通用规则模板、SQL脚本等规则定义方式;
Ø默认提供预置空值、值域、规范、一致性、数据集比对、非空判断、主键唯一性等规则校验。
●质量规则检核
Ø支持根据质量规则生成质量检核计划;
Ø支持质量检核任务的手动和定时自动执行。
●质量分析报告
Ø支持考核算法和策略配置,对质量规则执行结果进行量化打分;
Ø支持质量分析结果的查询和可视化展现。
四、数据治理方案
4.1设计原则
系统在设计过程中除考虑满足当前招标书建设要求外,还应当满足后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。
1)开放性
引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。
2)先进性
各工具基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。
3)可扩展性
随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;支持在统一系统架构中服务器、存储、I/O设备等的可扩展性。
4)安全性
按国家标准、行业标准、安全规范等实现数据安全管理。
5)可维护性
建立统一化可视化的运维体系,数据处理各个环节,能对系统进行相应的性能管理和日志监控。
4.2工具包组成
星环科技提供数据处理工具包是一款基于大数据技术的专业数据治理工具,可以有效提高后勤数据分析能力、规范核心数据开发过程,提升后勤数据质量管理水平。
结合后勤业务需求,为后勤保障大数据平台建设打下坚实基础。
通过对客户数据治理工具及服务需求的理解,建议客户采用本公司数据治理工具包(工具包组成见下图),来满足客户数据治理及服务建设的要求。
名称
供应商
说明
TranswarpDataCatalog
星环科技
元数据管理、数据治理、数据目录工具。
Governor升级版
(丰富元数据管理、增加数据源管理、数据资产目录、数据标准管理、数据质量管理等功能)
星环科技的数据治理工具(TranswarpDataCatalog)采用B/S架构,具有友好的可视化界面浏览器端兼容Chrome(71及以上)、FireFox(64及以上)、Safari(11.1.2及以上或12.0.2及以上)等主流浏览器,服务器端可运行在Linux、Windows系统上,应用服务器兼容Tomcat8.5,JDK版本为1.8,数据库推荐星环科技的大数据平台TDH,同时对Oracle、MySQL等传统主流数据库有高度兼容性。
数据治理工具包支持集群模式,可保证7×24小时不间断持续运行,且计划外宕机时间控制在全年的0.2%以内、计划外宕机次数控制在全年4次以内,系统有效工作时间要求≥99.8%。
数据处理工具支持高并发。
页面查询不高于2秒,复杂查询不高于5秒,一般页面数据更新处理时间不高于3秒,复杂数据更新不高于5秒。
数据处理工具数据库到数据库不低于2000条/秒,文件到数据库不低于3000条/秒。
4.5数据资产目录工具TranswarpDataCatalog
TranswarpDataCatalog(以下简称“DataCatalog”)通过接入各个数据源的元数据信息,进行有效合理的元数据组织、分析与数据资产化等服务,在后勤大数据业务场景下,DataCatalog可以提供高效地元数据分析理解与管理功能,方便数据管理部门能够深入挖掘数据资产价值,提供便捷的数据资产服务能力。
DataCatalog是Governor的升级版,在继承Governor元数据管理、数据分析等功能的基础上,完善了元数据管理功能、增加了数据源管理、数据质量管理、标准化管理、数据资产目录、资产可视化等功能。
4.5.1总体架构
DataCatalog总体架构如下图所示:
MetadataSourcesAccess提供Inceptor、Hive、HDFS、Hbase以及传统关系型数据库等的元数据接入采集等功能。
SpringFrameworkUI&RestfulAPI提供DataCatalog的UI界面以及相关Service的Restful形式的API接口,提供各类型的微服务对接方式DataCatalog的UI前台页面数据的数据存储采用MySQL数据库表,页面数据通过前台页面操作录入、实时或离线方式查询后台的平台服务获得.
MetadataIntegration&NotificationAPI提供Messaging消息队列(目前使用Kafka)以及API接口(HTTP或REST方式)的元数据操作接口与数据消息总线方式。
CorePlatform提供元数据统一的TypeSystem类型系统、Graph图计算存储查询引擎层、智能标签算法、知识图谱模型等。
GraphDatabase提供图计算查询引擎的公共存储封装层,支持JanusGraph开源图计算存储查询引擎Metadata目前使用HBase存储entity实体信息,索引Index信息存储使用ElasticSearch。
4.5.2元数据管理
1)元数据采集
支持元数据人工采集和自动化采集,支持对多数据源的元数据采集与管理:
Inceptor、HDFS、Hyperbase、Mysql、Oracle、DB2、Hive、TD、Hbase、Teradata、PilotEnterprise以及第三方报表工具。
支持采集任务配置,采集数据源配置,支持自动适配不同的元数据来源,采用适配的采集方式获取元数据,支持DB数据采集配置功能将DB记录中记录与元模型进行映射。
元数据管理页面显示已添加的数据源信息列表,包含连接状态、连接类型、已接入数据量、连入时间等信息。
同时,支持添加数据源、删除数据源和修改数据源配置。
2)元数据管理功能
支持存储过程和视图的元数据管理功能,能够提供存储过程和视图的创建SQL、使用记录、修改记录、概览标签以及关联资产的展示。
具备SQL管理的功能,能够自动采集数据平台中执行的SQL,并且按照SQL中的数据表分类,进行历史记录和修改记录管理,帮助审计历史操作情况和了解数据表的使用情况。
3)元数据维护
提供元数据常规管理能力,包括元数据基本信息、关系、版本的管理维护,以及元数据检核。
支持自动生成、手工录入两种方式设置版本号、支持任意版本元数据之间整体比对。
支持历史版本查询及恢复。
4)元数据浏览
添加对应数据源后,DataCatalog会自动抓取该数据源下的数据表、视图和存储过程。
可以查看并管理该数据源的元数据。
支持多数据源的资产浏览:
Inceptor、HDFS、Hyperbase、Mysql、Oracle、DB2、Hive、TeraData、Hbase、Teradata、PilotEnterprise以及第三方报表工具。
支持查看数据库的元数据描述信息、数据表、视图、存储过程、关联资产等信息。
●概览信息
●字段信息
●采样数据
●血缘信息
●使用记录
同时支持提供查看元数据总览、资产使用监控、通知等重要信息。
它将始终保持与数据服务平台的实时更新,以保证提供最具有时间价值的统计信息。
数据治理工具提供对SQL、存储过程的使用记录监控,展示使用最频繁、运行失败的表和存储过程,同时给出这两种数据资产的数量变化趋势。
5)系统管理
为应用提供可靠的基础管理服务,保证上层应用的正常运行。
包括系统基本配置管理、权限管理、角色管理等。
为了保证数据的安全性,数据管理需具备数据权限管控功能,提供文件、库、表、字段级的数据权限控制能力,权限控制能精确到行级,支持基于人员、部门、项目、角色维度的权限验证和授权,能够进行访问审计及敏感访问预警。
6)元数据应用
提供多种元数据应用方式,包括元数据检索、查看、历史、变更订阅下载。
元数据检索:
7)元数据导入导出
支持元数据的导入导出(全量与指定元数据备份与恢复等)。
8)元数据模型管理
支持导入、添加、查询、编辑、删除业务元数据以及自定义业务元数据模型(业务术语、信息项、指标、代码等)的格式。
支持对技术元数据模型(系统、库、表、字段、ETL过程等)的导入、添加、查询、编辑、删除业务的功能。
支持业务元数据的版本管理、与其他数据资产间关联的关系定义和维护功能,并提供检索功能。
9)数据地图
基于血缘分析技术,通过图形化方式从宏观角度展示企业数据资产(系统)的关系,有利于用户更好理解系统之间关系。
10)血缘分析
●支持视图View的血缘影响分析(包括展示已delete删除的表和视图,支持指定深度展示)。
●支持数据库中表和字段的血缘分析和影响分析。
支持对电子表格和仪表盘的血缘和影响分析。
●支持对ETL流程的血缘、影响分析。
●支持手动对血缘信息进行增加,删除,修改等操作。
●支持自动化实时同步更新血缘、影响数据。
DataCatalog支持数据表的血缘影响分析,通过整合分散在各个系统、应用、数据库等不同数据源中的元数据,将它们集中在一起,提供统一的元数据查询管理接口。
通过元数据追踪,DataCatalog记录了每一次元数据转化的输入与输出,从表级和列级两个粒度上,描述多表间的关系,为数据平台中的元数据勾勒出一幅完整的数据流动变化关系图谱,使用户更全面的掌握数据,把握数据变化。
DataCatalog使用血缘分析和影响分析来描绘元数据间的关联图谱,包括元数据来源于哪些表,又去往了哪些表。
其中血缘分析关注当前对象与其上游对象的关联,影响分析关注当前对象对下游对象的影响。
以下举个例子描述血缘分析功能
以目标对象的第一代祖先为起点,以目标分析对象为终点,按照转化关系逐层扩展。
血缘图直观的展示了目标对象的产生过程,包括从哪些表转换而来,经历了哪些转换,从而帮助推测出它在此过程中被赋予的含义,以及会受到的潜在影响。
影响图的起点是当前分析对象,终点是受其影响的最末端子代,按照影响关系逐层扩展。
影响分析图反映了当前对象在统一数据集成平台中,参与了哪些元数据的形成。
用户可以借助影响分析图观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。
点击图中的某一张表,可以查看该表的具体信息。
此外,血缘影响分析图还支持列的血缘影响分析。
点击血缘图中任意一张表的展开,查看该表的血缘影响字段。
11)关联分析
分析当前对象对下游对象的影响。
关联分析图的起点是当前分析对象,终点是受其影响的最末端子代,按照关联关系逐层扩展。
影响分析图反映了当前对象在统一数据集成平台中,参与了哪些元数据的形成。
用户可以借助影响分析图观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。
12)关系过滤
该元数据管理工具支持基于Process对血缘图以及影响分析图进行过滤,折叠与目标Process无关的血缘和影响分支。
血缘分析和影响分析关注的是分析对象的数据是如何从上游对象逐步转换而来,或者如何影响下游的对象,例如当我们关注血缘图中某个Process:
tb1→tb2时,关注的是数据是如何输入到tb1,再从tb1输出到tb2的这条血缘分支;而不关注tb2的其他输入来源。
另外需要注意,Process的输出对象(即tb2)的后续血缘链不会受到影响,被过滤的范围以tb2为终点。
综上,本平台支持仅观察Process的过滤血缘/影响图中的特定部分,与当前Process的输入对象没有血缘输入/影响关系的表及以这些表的血缘链/影响两都将被收起。
过滤前:
过滤后:
12)数据治理可视化
为降低业务人员的学习成本,数据管理平台需要具备简单、易用的特点。
能够便捷地利用可视化界面利用托拉拽的方式,对数据进行清洗、入库等操作。
4.5.3数据业务字典
业务字典是一个管理业务术语和数据标准的模块。
支持自由创建业务元数据和数据标准的存储和展现形式,并配合机器学习技术关联、组织相关数据资产。
●支持自定义业务目录结构以及内容,并提供相应的查询,浏览和使用页面。
●支持业务词条的以EXCEL文件格式的导入导出功能。
●默认内置金融、政府等行业业务术语。
●支持根据业务需求,创建新的字典,使用方法与内置默认业务字典相同。
●支持自定义业务元数据的存储、展示格式和类型。
●支持将业务元数据与任意资产进行关联。
1)新建业务字典
2)添加目录及编辑属性
业务字典支持自定义目录的结构和属性。
属性规定了该目录以及它所有级别的子目录下,所有词条的存储和展现的形式。
3)词条管理
业务字典目录的详情页展示了目录的描述、包含的词条和子目录等信息。
词条的展示格式由用户定义的目录属性决定。
该页面支持对词条和目录的添加、批量删除、单个编辑等操作。
4)导入导出
对于存量词条,支持以Excel模板的形式批量导入和导出。
4.5.4数据标准管理
●支持多检索条件模糊查询,对数据标准体系内容进行多维度的查询浏览。
提供按名称、分类、层级等多种查询条件的组合查询功能,展现数据标准信息项的各种要素,提供按多种查询条件的组合查询功能,展现标准代码的各输出要素。
●支持按多种查询条件的组合查询功能,展现各系统对数据标准信息项和相关标准代码的引用关系,如表物理名称、数据项名称、数据项编码值、标准信息项编号等。
●支持数据库系统到数据标准的映射关系,保证数据标准的落地与执行。
支持数据标准体系、指标体系、数据标准信息项、标准代码、映射关系等标准的维护功能。
●支持导入、添加、编辑、删除数据标准相关内容以及自定义数据标准格式。
●支持自定义数据标准目录结构以及内容,并提供相应的查询,浏览和使用页面。
●支持将数据标准与任意资产进行关联。
●支持自定义数据标准的存储和展示格式、类型。
●支持数据标准的版本管理以及跟其他数据资产关联和检索的功能,辅助数据标准落地执行。
4.5.5数据质量管理
1)数据质量思想
数据质量问题包括但不限于:
数据的完整性:
例如个人档案的属性中缺少性别,籍贯,年龄等关键信息;
数据的唯一性:
不同来源的数据在DW中出现重复的情况;
数据的权威性:
统一指标出现多个来源的数据,且数值不同;
数据的合法性:
获取的数据指标与常识不相符合,如年龄>150岁
数据的一致性:
不同来源的不同指标数据其内涵是一样的(数据发现);或者同一指标的数据内涵不同。
为了解决以上问题,可以采用不同的手段和方式如下:
解决数据完整性问题
解决思路:
补上数据缺失的信息
主要方法:
●通过其他信息补全:
例如,使用身份证号码推算性别,籍贯,出生日期,年龄等;
●通过缺失记录的前后数据补全:
例如,时间序列缺失,可使用前后记录的均值补全,或根据缺失跨度平滑处理.
解决数据唯一性问题
解决思路:
数据去重,只保留一条记录
主要方法:
●按主键去重,利用sql的groupby
●按规则去重,编写一系列的规则,对重复情况复杂的数据去重,例如不同来源的客户数据,可通过相同的关键信息进行匹配,合并去重。
解决数据权威性问题
解决思路:
在不同数据来源之间使用最权威的那一个.
主要方法:
记录DW的数据来源,并赋予权威权重,当导入数据存在重复/冲突的情况下,使用权重较高来源的数据
解决数据完整性问题
解决思路:
设置判定规则
主要方法:
●设置强制合法规则:
对字段设置合法区间,越界数据采取措施,强制转换为最大/最小值,或判定为无效(供人工检查)。
例如:
格式规则(日期类)"yyyy-MM-dd";内容规则:
性别in(男,女,未知);出生日期<=today
●设置告警规则:
对超越数值范围的记录做报警处理,导出错误记录到临时的数据库.表中供人工检查;
●对字段的内容(数值类)做离群值检查:
使用分箱,聚类,回归等数据挖掘算法发现离群值,并告警。
解决数据一致性的问题:
主要方法:
通过数据标准和数据权威的制定解决。
2)质量管理规则及流程
上图展示了Datacatalog数据质量控制采用的基本流程。
通过界面进行数据质量检核规则定义与维护,可定义规则包括空值、值域、规范、数据集比对、分组检查、记录一致性、逻辑、自定义等。
通过创建三张相关的表,分别存储不同信息:
person_file:
存储质量合格的记录,
person_file_err:
存在非法数据的记录,全部作为string类型保存,检测到的8条违反规则数据将全部进入该表。
person_file_dq:
本次导入的数据质量统计表,记录了导入时间,合法记录数,非法记录数,合法记录比例。
处理流程如下图:
基本的思想是通过Reader获取原始数据,然后分为三条处理线。
质量统计表:
用ColumnMap算子从总的原始数据中过滤出用于统计的有效字段,将其与用ColumnMap算子从有效数据中过滤出用于统计的有效字段进行JOIN合并,汇入数据质量统计表。
合法数据表:
通过Filter定义出符合要求的元数据标准,例如类型、有效值、精确度等,以此过滤出有效数据,汇入person_file_orc,同时将经过合法处理后的非法数据汇入该表进入最终的数据表person_file。
非法数据表:
通过Filter_Neg过滤所有非法数据,接入表person_file_err_orc,然后经过合适的合法处理,导入最终的表内。
由此在Transporter中实现了数据质量检查、数据路由、数据加工的数据质量控制流程。
3)数据稽查
除了采用数据质量控制工具,星环数据治理平台的数据库还提供数据稽查功能保证数据质量。
数据稽核会根据规则将脏数据写入指定的脏数据表(ErrorTable),并标明每一条脏数据为何非法,在数据导入完成后,将返回总共记录数、导入记录数的接口、或者数据质量报告,以方便监控程序判断以及处理。
也可以仅打印出显示报错信息。
实现上述特性都是为了使数据稽查能够在脏数据存在的情况下尽可能的保护系统或保证业务的顺畅执行。
进行数据稽查时,系统将对如下问题数据报错并记录至ErrorTable:
字段值中含有定界标识符,导致读取数据时一行数据被误读为两行。
因为错误的切分方式会使读入记录的字段数与定义不符,系统将通过检测列数总个数来识别这样的脏数据。
以目标结果表的类型判断为标准,进行类型匹配与类型转换,如果类型不匹配,则输出脏数据。
在通过UDF结合过滤条件,实现其他的数据转换以及过滤时,对不匹配的数据记录打印报错或记录于ErrorTable。
对不符合NOTNULL限制的记录报错。
完整的数据稽查功能是按照如下的处理流程实现的,建议用户在使用数据稽查功能以及设置相关配置时,结合该流程决定配置参数:
用户可以在创建一个外表的同时指定LogErrorTable。
当从外表读取数据的时候,每解析一行记录,若访问到上述四种无效数据,就将该数据写入ErrorTable。
允许指定REJECT策略,即当错误率达到一定的行数或者比例时,就停止读取。
3)数据质量管理功能
●支持内置检查规则以及自定义质量规则(如空值、值域、规范、数据集比对、分组检查、记录一致性、逻辑、自定义等)对目标数据进行数据质量检查
●支持自动或人工执行数据质量检核任务,支持定时调度时间粒度配置,包括时、天、月、季度等粒度。
●对质量规则执行结果进行量化打分;检查完成后自动生成质量分析报告。
●具备根据质量问题改善数据质量的能力,能够使用算子修改数据,改善数据质量。
●支持在ETL流程中进行数据质量管控的功能,使得数据质量在事前被发现并解决。
4.5.6数据资产目录
1)数据资产门户
数据资产可视化
支持以目录的形式,逐层展示所有数据资产,并支持全局搜索和浏览。
同时支持数据资产概览,包括系统量、数据库、表、字段统计,提供数据标准概览,包括数据标准、代码值标准统计,数据质量概念,包括质量标准及数据质量分布情况等。
●目录形式展示数据资产
●资产概览
数据资产自动分类及检索
支持将海量元数据自动分类,支持对所有数据资产全文数据检索,支持全局搜索、模糊搜索。
支持数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 治理 工具 项目 投标 技术 部分
![提示](https://static.bdocx.com/images/bang_tan.gif)