数据集市架构方案.pptx
- 文档编号:703443
- 上传时间:2022-10-12
- 格式:PPTX
- 页数:32
- 大小:904.81KB
数据集市架构方案.pptx
《数据集市架构方案.pptx》由会员分享,可在线阅读,更多相关《数据集市架构方案.pptx(32页珍藏版)》请在冰豆网上搜索。
,数据集市建设方案,目录CONTENTS,01,数据集市的定位,03,02,数据集市的构建思路,数据集市的实战分析,01,数据集市的定位,数据应用类系统常见的概念,数据集市的全景视图,数据集市的价值体现,数据集市的主要组成,数据集市,衍生数据,基础数据,指标数据,预测数据,关联数据,分类数据,原始数据,主题数据,整合数据,衍生数据是数据集市的价值提升点,通过对基础数据的分析、挖掘,根据业务场景的针对性要求,梳理汇总性的指标数据,挖掘性的关联数据,基于专家规则和机器学习的预测和分类数据。
基础数据是数据集市的数据基础,主要通过从数据仓库或者源系统ETL获得,基础数据根据每个数据集市的业务需求,各有不同,数据集市应当具备数据清洗,加工,整合等功能。
贴源层(按系统),整合层(按主题),衍生层(按体系),输出层(按应用),以营销数据集市为例进行介绍,客户主题,产品主题,渠道主题,客户主题,产品主题,渠道主题,产品推荐,运营优化,VIP专属,贴源层的数据主要来源于各个原始系统,贴源数据由于来自各个原始的业务数据,因此数据质量相对较差,缺少业务层面的整合,但在缺少数据仓库的环境下,数据集市需要承担该部分数据的整合工作。
但贴源层内的表结构与源表保持一致,并不执行任何清洗动作,保证数据与源表数据的完全一致性,便于后续数据问题的跟踪和定位。
在数据环境较成熟的企业,比如已经具有一定规模的数据仓库等,数据集市与数据仓库对接推荐以整合层为对接起点,可以降低数据建设的难度。
整合层的数据采用按需选择,适度加工原则,同时需要考虑预留一部分数据以应对一些不可预见的需求,并需要对数据进行必要的清洗与核检,本层数据包含的为明细数据,为后续的数据的衍生提供数据原料。
衍生层数据是数据集市的核心价值体现,通过与业务及应用场景的针对性分析和结合,形成所需要的指标体系,标签体系,指标与标签需要形成体系,便于管理与应用。
衍生层和整合层的应用领域不同,整合层数据来源于生产系统,并为满足一些不可预见的需求而沉淀,衍生层则是面向应用场景的,是为明确的需求而提炼的。
数据层数据一般以应用场景进行分割,并实现数据块之间的相互独立,每一个数据块针对一个应用场景单独维护,相互之间各自独立。
交付层数据按需求进行分类管理,各个独立的需求个人数据集市提供独立的数据,每个需求的数据集均使用独立的用户进行存储,并共享给相应的业务系统。
02,数据集市的构建思路,数据集市构建需遵循的一般策略,数据集市的构建路径方法论,数据范围分析过程,数据溯源过程,人与沟通,方法与资料,数据需求范围分析及溯源工作方法,数据溯源的各对接系统数据分析,数据溯源与调研的成果,样本数据查看数据分析,主要通过样本数据的查看,达到以下目的:
验证业务规则,针对数据结构整理中的业务规则进行补充和完善表间数据关系验证每个字段分析
(1)字段的业务含义
(2)字段的取值(3)字段的关联关系(4)字段的关系完整性(5)数据质量概况(非代码字段的空值、非法值等)填写样本数据和代码表取值关于字段、其他规律性描述,生产数据深入分析,样本数据本身提供的数据量有限,数据质量也难保证在模型的后期设计阶段,甚至在投产以后仍需要深入分析生产数据字段级业务验证字段级关联验证代码验证表级数据关系验证数据质量分析数据变化分析,数据调研分析过程,A数据集市,B数据集市,数据仓库,应用系统,应用系统,应用系统,应用系统,应用系统,应用系统,E.T.L,E.T.L,E.T.L,ETL:
负责数据从源系统导出E、根据接口规范进行转换T、并加载L到目标系统的过程。
ETL-数据集市建设的主要落地工具,定时服务,SH等脚本,SH等脚本,专业的任务调度工具,专业的ETL工具,简易实现方式,常见实现方式,专业实现方式,采用该实现方式,主要用于规模较小的企业或者个人应用,系统涉及的内容较窄,表、字段等实体较少,没有特别复杂的依赖关系,可以采用脚本和应用服务的定时调度即可完成。
大型公司往往会购买专业的ETL工具,支持多种ETL脚本生成组件,支持可视化编辑,支持任务调度管理,支持数据的血缘图谱分析等专业的功能,专业的ETL工具价值不菲,而且开源产品较少,因此目前主流采用的是第二种方式。
该方式是目前主要采用的方式,通过手工编写SHELL等脚本进行数据的导出、导入,通过专业的任务调度工具实现多个系统、表之间的运行依赖,往往需要较为专业任务调度工具,支持Agent,支持可视化编辑等。
ETL的落地实现方式,数据文件,数据文件,数据文件,应用系统,应用系统,数据仓库,贴源层,整合层,衍生层,输出层,E,L,T,为了提升处理效率,往往我们将ETL的过程转变成ELT,先将数据文件加载到贴源层,然后在数据库内部利用存储过程等手段将数据转换层我们需要的整合层数据。
ETL与ELT,衍生层的建模方式,多维数据立方与传统的二维表结构,03,数据集市的实例分析,营销过程风险识别场景的目标分析,第一步、分析业务过程,第二步、建立基于客户识别、客户准入机制,核查环节等维度的营销过程事实表,通过维度建模构建数据模型,构建服务于营销过程风险分析的数据集市,通过维度建模实现概念分层,通过维度建模实现多视角观察,通过维度建模实现多视角观察,通过维度建模实现多视角观察,方案总结,多谢指教,THANKS,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 集市 架构 方案