企业数据仓库概要设计说明书文档格式.docx
- 文档编号:18110506
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:12
- 大小:470.24KB
企业数据仓库概要设计说明书文档格式.docx
《企业数据仓库概要设计说明书文档格式.docx》由会员分享,可在线阅读,更多相关《企业数据仓库概要设计说明书文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
5.1.2目标8
5.2数据装载层(ETL)8
5.2.1描述8
5.2.2目标8
5.3假定与约束9
5.4数据仓库层(ODS、EDS、DM)9
5.4.1描述9
5.4.2目标9
5.4.3假定与约束10
5.4.4系统模块(SystemBuildBlocks)11
5.5前端展现层(ClientAccess)12
5.5.1描述12
5.5.2目标12
5.5.3假定与约束12
5.5.4需要的技能12
5.5.5待确定问题13
5.6元数据管理(MetaDataManagement)13
5.6.1描述13
5.6.2目标13
5.6.3假定与约束14
5.6.4需要的技能14
5.7调度监控系统(DispatchSupervisorSystem)14
5.7.1描述14
5.7.2目标14
5.7.3假定与约束15
5.7.4需要技能15
、/■4\.
1刖百
本文档根据上次短彩部和互联网部的会议内容,从整个系统的高度形成公司基于短彩及技术部的数据仓库总体概念框架,对整个系统架构设计所需的功能模块进行明确划分,明确各功能模块的职责范围。
2术语
OM(OPENMOBILE):
XXXX企业科技有限公司
DW(DataWarehouse!
):
数据仓库,数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)>相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合
ETL(Extraction-Transformation-Loading):
数据抽取、转换和加载
ODS(OperationalDataStore):
运营数据存储
EDS(EnterpriseDataStore):
企业数据存储
DM(DataMarket):
数据集市
DSS(DispatchSupervisorSystem):
调度监控系统
MetaDataManagement:
元数据管理
3系统环境及功能
系统环境及功能如下图所示:
短彩系统
系统整体构架
从图中看到本系统目前的关联系统有:
短彩部系统:
主要为上下行及report数据
WA陈统:
考虑二期接入
应用下载系统:
其他外围系统:
暂时没有,作为后期扩展而设计
OMR据仓库的主要用户角色有:
高层管理人员;
该类用户主要是公司相关领导,
通过0濒据仓库作出相
应的决策,该类用户往往浏览0微据仓库的企业KPI指标及相关报表。
业务/经理人员;
该类用户主要是各部门领导如产品部、商务部、财务部等相关部门领导等,主要使用OM敷据仓库查看部门KPI指标,浏览相关报表,进行多维分析等工作;
业务分析员;
这类用户主要是资深的分析人员,通过OMK据仓库浏览报表并进行多维分析等工作
系统管理人员;
该类用户对OM激据仓库进行系统的监控及维护等工作,并为其他用户提供支持;
OMK据仓库应提供给用户如下的功能:
多维分析:
多维数据分析是针对特定的分析主题进行多维数据模型的建模,使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,通过切片、切块、旋转等操作进行各种复杂的分析和预测工作。
专题分析:
专题分析模块利用各类主流的数理统计方法,通过不同分析工具(或模型)为专业分析人员(SuperUser)提供灵活、专业分析的工具,解决一些跨越主题的统计分析需求。
本部分列举了一些较为复杂的分析模型,例如:
客户流失预警分析、客户消费行为分析、客户发展分析、高额/欺诈分析、大客户异动分析、客户消费模型分析、业务推出对其它业务的影响分析的测算分析等等。
指标展示与告警:
系统对用户非常关心的关键指标进行多种方式的展示,如展现企业每天经营的整体运营情况,主要包括一些实时性的业务关键指标如每天更新的客户数、活动客户数、总上行量、总下行量、下行成功量、收入、每天新增客户数、流失客户数等指标;
对于相关指标可设置告警值,若指标值超出告警上下限则进行告警;
系统管理功能:
为保证OMK据仓库能够稳定和安全的运行,系统应提供充分的系统管理功能,以对整个数据仓库系统的运行进行管理、协调及监控、系统备份和数据备份等等。
4系统数据流
按照数据仓库的设计思路及功能,系统的数据流框架如下图所示:
外部数据源
数据接口文件
一一区一
•Loew,
调度子流程
数据访问子流程
数据流框架
5系统内部功能框架
系统的内部功能模块如下:
Data
Source
系统功能模块图
从上图可以看到系统包括数据源层(DataSource)、数据装载层(ETL)、数据仓库层(Stage\ODS\EDS\DM)、前端展示层(ClientAccess)、系统管理层
(SystemManagement)、元数据管理层(MetaDataManagement)及调度监控层(DispatchSupervisorSystem)等。
数据源层(DataSource)
描述
OMt据仓库的数据来自于MSSQL#部数据源,数据平台相对单一。
目标
由于用户常常需要访问以不同形式存放且处于不同平台上的业务数据及其他外部数据,因此需把这些外部数据经过数据抽取和转换等操作以标准一致且易于理解的方式存储在STAG叶
数据装载层(ETL)
寸苗述
数据在进入数据仓库前,先存储在STAG*储区,这部分数据是直接将数据源层的数据加载得到的,不做任何的逻辑处理。
数据装载层对业务数据及其他外部源数据经过数据抽取、清洗、转换等操作形成标准一致、清洗后的数据,并存放在数据仓库系统中STAG嗷据库中。
数据装载层定义了数据从数据源系统存储到数据仓库中所进行的数据转换及数据清洗规则。
它负责从源数据系统抽取数据并经各种转换操作后加载数据进入数据仓库系统中。
从数据源系统进行数据抽取、数据转换和数据加载时应该要迅速并尽量减小对数据源系统、网络和数据仓库环境的影响。
假定与约束
公司业务系统环境相对简单;
基于ETL方法公司的数据转换规则相对简单;
临时空间对于数据获取层来说可以单独开发。
为了简化和优化ETL处理
过程,临时空间中存储的数据可以是持续存储的;
数据处理过程中的统计信息可以存放在临时空间中,但临时空间的数据对于前端用户来说应该是不可见的,临时空间的数据既可以是关系型的也可以以文件的形式存在。
目前的假设是数据获取层和数据处理层的临时空间可以共享,它们在物理上并不分开;
数据仓库层(ODS、EDS、DM)
才苗述
数据仓库层是整个数据仓库系统的核心,进入数据仓库的所有数据都是在STAGE?
储区经过一定的业务逻冷?
进行处理过的数据。
ODS-EDS-DMJ设计模式,
体现了数据仓库设计的两个基本点:
粒度和维度。
从ODS-EDS-DM数据的粒度
依次递增,也就是OD话储的是接近于原始数据源的明细数据,到DM莫式,数据已经是经过深度汇总的;
另一方面,ODS#储的是运营数据,基本上体现不了主题,而当数据经过深度汇总到DM模式,每个模式基本上就是一个主题,而主题的两个基本内容就是维度和计算值,因此在DM是根据一定维度进行深度汇总得到的面向主题的数据,也是直接面向业务部门不同用户的数据。
将数据粒度化,通过具体的业务模型进行规范,使得数据在模型上规范化。
数据预处理:
充分利用数据仓库中数据静态化的特点,将数据预处理,生成不同粒度的处理数据;
数据复用:
数据仓库最核心的元素是数据,数据的复用度是数据仓库设
计优劣的一个标准。
数据的复用可以减少重复调度带来的系统负荷及数据不一致性问题;
数据结构优化:
通过适度的粒度和维度设计,可以达到结构优化的目的。
即将不同主题和粒度的数据存放在不同的物理表中。
临时空间对于数据提升层来说可以单独开发。
过程临时空间中存储的数据可以是持续存储的;
目前的假设是数据获取层和数据传送层的临时空间在物理上不分开并且可共享;
5.4.4系统模块(SystemBuildBlocks)
数据仓库层可以进一步分解如下:
STAGE莫式,该模式的数据是直接从外部数据源中(文本文件)导入,不做任何的处理。
—据数始原
--一
N据数始原
(-一
ODS(OperationalDataStore)模式,主要功能有:
1、横向合并,将STAGE莫式日数据合并为月数据2、纵向合并,对STAGE莫式进行表连接,将经常进行联合查询的表进行预处理3
-1据数并合向Wro
N据数并合向
EDS(Enterprise
DataStore)模式,
主要功能:
1、横向切片,从ODS数据中按照一定的业务规则抽取数据
2、初步聚集,从
STAG或OD嗷据中按一定的业务规则对数据进行初步汇总
1据数
片切向Bwqu
N据数集聚步
DM(DataMarket)模式,主要功能:
1、深度聚集,从EDS初步聚集数据中进行深度汇总
集聚度}
N据数集聚度}二
从上面的图中可以看出从最原始的数据STAGE」最终的统计分析数据,在数据仓库中共分4个层
次,即数据按照粗细分成4种粒度,STAG株式的粒度最大,对应的数据的细节也是最细的;
而
粒度最小的DM莫式的数据的细节是最粗的。
而从最大粒度的STAGE」最小粒度的DM莫式,都需要
业务驱动,既数据每个粒度的处理都是根据业务来进行
前端展现层(ClientAccess)
用户与数据仓库的所有的交互需要在在前端展现层实现。
在前端展现层需要
实现应用信息的读取,一是元数据管理。
应用信息读取模块提供工具让用户可以快速方便的得到他们想需要的信息。
这个模块可以让用户通过读取数据仓库中不同层的数据存储来查阅报表进行分析,如同自己拥有一个信息系统。
该层的主要目标是让用户从纷繁的存储数据中得到所需要有用的业务信息。
还为了提供工具给用户,以便用户可以自由灵活的选择自己的需要。
这些工具以
及在DataMart中准备好的数据可以有效的帮助用户作决策。
前端工具获取数据的途径会选择最优。
虽然这样可能会增加整合的工作,但要是工具能最大程度上适应商务上的应用,这个是值得的。
有大量需要查看静态报表和做简单查询的用户,有小部分需要动用大规模资源做分析。
需要的技能
商务方面的认识,信息分析方面的知识,关于前端工具代码的编程,数据仓库的管理,数据仓库的结构以及Internet的安全知识。
待确定问题
WEB页面的展示方式
元数据管理(MetaDataManagement)
元数据是描述数据仓库中数据的数据,元数据描述数据仓库环境中中的数据,例如数据源接口的格式、数据仓库中的表结构、ETL的各种转换任务、装载
任务等,都是元数据。
元数据管理就是需要将所有元数据集中统一管理,形成元
数据库。
在OM数据仓库环境中有三类元数据:
系统构建元数据。
该部分元数据是在构建数据仓库应用(例如数据转换)和进行数据库设计、构建时产生的元数据,该部分元数据占了数据仓库环境元数据的绝大部分。
控制元数据。
该部分元数据用于控制和管理数据仓库环境的运行,有两类控制元数据
控制处理过程的元数据,包括数据源的物理结构、清洗转换规则等。
用于数据仓库环境管理的元数据
业务元数据。
元数据管理在数据仓库建设中相当重要。
元数据管理的目的主要有:
收集整理对系统数据、各种处理过程、各种业务的详细描述,并集中存储元数据,以帮助IT人员对系统进行维护和分析。
为用户提供数据地图。
数据仓库中存放了海量数据,有了元数据,用户可以在数据仓库海量的数据中,不用了解太多的技术细节和术语就方便快捷找到自己所需的数据,并清楚知道各个数据项的含义,提高用户的分析效率。
通过描述数据之间的依赖关系,能够进行影响分析,即对某部分数据发生修改,可以分析出该部分的改变会影响到其他哪些部分。
可以记录数据仓库整个应用的状态,方便跟踪和检查。
基于目前的技术和资源情况,我们假定元数据管理是单向的管理。
即元数据管理只是收集、存贮和发布使用元数据。
对元数据的修改,系统不能自动实施,例如修改某个表的一个字段,原来是CHAR(10),现在需要变成CHAR(20),元数据管理只能分析出这个改变影响了哪些部分,如何修改受影响模块的代码则由手工完成,不需要元数据管理自动完成。
基于目前的情况,我们假定业务元数据限定在指标体系的范围。
元数据分析
数据仓库架构
元数据模型
调度监控系统(DispatchSupervisorSystem)
调度监控系统贯穿了整体系统的ETL层和DW层,整个系统中的作业调度(包括数据抽取、数据加载、存储过程执行等)、异常监控(作业调度对应的异常情况)都由调度监控系统负责调度及监控。
FTP的形式传
ETL层调度监控:
ETL调度监控能在规定的周期从数据源系统中抽取数据,生成符合一定格式的文本文件,再将文本文件以
输到指定的服务器上;
然后将文本文件加载到目标数据库(STAGE)
中。
并能对整个流程做出异常监控,将监控结果反馈给相应的系统角色
DW层调度监控:
主要是对DW中的所有存储过程进行调度,在DW中的存储过程调度分时间依赖和事件依赖两种情况,DW层调度要根据不同类型的调度进行不同的处理,并能对整个调度流程进行异常监控,将监控结果反馈给相应的系统角色。
OM数据仓库中的调度只存在时间依赖和事件依赖两种类型
ETL层中的时间依赖是有周期性的,而不存在任意时间的调度
调度算法
基于C++的消息响应机制
系统管理
系统管理层保证OM数据仓库能够稳定和安全的运行。
它协调各子模块内部的运作和子模块间的协调以及同用户的友好交互。
系统管理实现目标包括:
安全管理,系统监控与告警,角色管理,参数管理,
系统性能管理。
它包括六个模块:
数据安全,系统监控,参数管理,消息管
理,数据备份与恢复,系统性能规划和支持。
安全管理,角色管理,参数管理,系统性能管理。
系统安全管理:
OM数据仓库需要一个全面的安全管理,要考虑网络中所有安全薄弱环节的保护,同时要顾及安全策略的集中实现。
系统监控与告警:
OM数据仓库应该具有7*24的全天候监控能力;
其监控重点在于安全性管理、备份和恢复管理、各种应用(如ETD
的性能和可用性管理等。
当发生警戒事件时,系统能够通过各种方式报警。
系统角色管理:
角色管理对使用系统的各实体提供类型和权限设置,并能对各实体实现分组分级管理。
实现集中的用户管理机制。
系统参数管理:
参数管理主要是对系统中所应用的各种参数及阈值
进行管理。
系统参数管理功能主要负责OMt据仓库中所用到的所有参数的管理,为使用者提供一个集成的环境来根据具体情况修改和调整系统中的各项参数指标。
系统性能管理:
主要包括性能检测和应用性能要求两个方面;
性能监测是指对主机、操作系统、数据仓库等的性能、负载等的监测;
应用性能指针对系统实现的主要功能所给出的响应时间、并发要求、
扩展能力等方面的基本规定。
系统性能监控
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据仓库 概要 设计 说明书