数据抽取与主题开发基础流程.docx
- 文档编号:30050035
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:34
- 大小:2.38MB
数据抽取与主题开发基础流程.docx
《数据抽取与主题开发基础流程.docx》由会员分享,可在线阅读,更多相关《数据抽取与主题开发基础流程.docx(34页珍藏版)》请在冰豆网上搜索。
数据抽取与主题开发基础流程
数据抽取、主题报表基础开发流程例如
1数据抽取
依照SG186一体化平台数据标准,相关数据抽取流程如下:
为了利用户能更全面的了解数据体系的原理及应用流程。
下面咱们以生产数据为例,详细演示数据的抽取的进程。
抽取模块:
(中间到基础,基础到主题,基础到支撑)
下面以基础表到主题表的数据抽取为例,予以详细说明。
另外,基础到支撑表的抽取与基础到主题抽取建模类似。
1.1明细表(源表)
例:
SC_DEV_EXAM_REP(生产设备检修基础表)表。
表结构如下:
目标表
T_SC_EQUIP_REPAIR(设备检修主题表)表.其表结构如下:
数据名称
英文名称
数据长度
数据单位
月
MONTH_ID
VARCHAR2(6)
检修类型
REPAIR_TYPE
VARCHAR2(20)
生产管理|检修类型
电压等级
VOL_LEVEL
VARCHAR2(20)
生产管理|电压等级
计划数
PLAN_NUM
NUMBER(10)
COUNT(设备检修.检修计划编码)
完成数
FINI_PLAN_NUM
NUMBER(10)
COUNT(设备检修.检修计划编码)|设备检修.是否完成检修=是
完成率
REPAIR_RATE
NUMBER(12,2)
完成数/计划数*100%
附:
T_SC_EQUIP_REPAIR(设备检修主题表)主题表数据标准。
概念宏
为了移植方便,要概念宏。
应用于整个数据抽取流程。
其中概念了生产、营销的中间库、基础库、主题库的连接方式(ORACLE9i、ORACLE10g等数据库的连接方式)、数据库实例、用户名、密码和数据抽取的时刻戳。
(概念宏)
设计Map及Process
源连接
选择基础表相对应的源连接、数据库别名、用户ID、密码。
最后将数据源按维度字段(在目标表(主题表)中需要分类查看的字段,其在源表(基础表中对应的字段)进行排序,以下是样例查询语句:
SELECT*FROMSC_DEV_EXAM_REPWHERETAB_YEAR=$(SOURCE_TIME_YEAR)
ANDTAB_MONTH=$(SOURCE_TIME_MONTH)
ORDERBYTAB_YEAR,TAB_MONTH,REPAIR_TYPE,VOL_LEVEL
注:
那个地址的对源数据进行分组的依据是目标内外面的维度字段。
目标连接
选择和源表相关的主题表。
选择输出模式、更新选项
有四种输出模式,能够依如实际的情形选择。
概念全局变量(属性)
将目标表中的维度和指标设为全局变量。
由于在源数据转化为目标数据的进程中,需要对源数据指标进行Sum或Count或百分比的计算。
其计算的结果就临时赋给全局变量,然后又全局变量再赋给个目标值字段。
实现了源数据指标经全局变量赋给目标字段的进程。
为了便于开发、保护,全局变量的别名是依据目标字段产生的。
初始化全局变量
在BeforeTransfaction事件中将需要进行计算(Sum、Count、百分比)的全局变量赋初始值0(初始化的值一样在那个地址用Execute方式指定)。
将全局变量依次赋给目标字段
把无值的全局变量赋给目标字段,由于全局变量是依据目标字段产生的,因此那个地址的赋值就便于明白得和后期的保护。
为全局变量赋值
在源AfterEveryRecord事件中设置其它各维度字段的值,执行指标字段Sum或Count和百分比计算,也确实是为全局变量赋值的进程。
可参考《农电治理主题数据》
通过步骤、、、的操作,整个值传递的进程终止。
此处做清洗的操作,如源表中一些数据不合标准,或不完整,需在此处做过滤,归并,重置值等操作(具体的清洗方式需依如实际源数据的质量水平来确信)。
处置OnDataChange1事件
选择数据转变监视器
选择需要监视的维度字段,多个字段那么用表达式来处置用&关联,为全局变量赋值提供赋值依据。
处置ClearMapPutRecord事件。
执行向目标内外面插入数据的动作。
还原全局变量还原全局变量,赋初始值0.为下次赋值做预备。
处置OnError事件
OnError事件resume,若是抽取工程发生错误,该时刻将执行数据回转动作。
调试运行
运行映射。
直接运行或调度运行。
结果是:
成功读取48条,修改4条。
源表:
共48条记录
目标表:
共4条记录
注:
步骤至:
完成源与目标的连接、对应。
步骤至:
完成源指标经全局变量赋给目标指标的进程。
步骤:
监测抽取进程是不是顺利进行。
步骤:
运行、调试。
此步骤只基于源、目标一对一的情形。
成立多个映射后可将其集中到单个或多个流程中批量执行。
2主题开发
以上述主题表T_SC_EQUIP_REPAIR(设备检修主题表)为例,介绍一下主题开发的具体步骤。
其表结构如下:
附:
T_SC_EQUIP_REPAIR(设备检修主题表)主题的设计标准。
主题域编号
SCGL
主题编号
SCGL-003
分析主题
设备检修分析
需求目标
通过对设备检修情况的分析,掌握设备检修检修完成率等。
维度组成
时间、电压等级、设备类别、设备类型、检修类型
维度层次
【时间】:
年-〉季度-〉月
MONTH_ID
【电压等级】:
见码表:
C_VOL_LEVEL
【检修类型】:
见码表:
C_REPAIR_TYPE
分析指标
计划数
PLAN_NUM
NUMEBR(20)
完成数
FINI_PLAN_NUM
NUMEBR(20)
完成率
REPAIR_RATE
NUMEBR(12,2)
分析方法
采用多维分析OLAP技术,按照多种维度展现分析。
数据来源
安全生产系统SC_DEV_EXAM_REP
关注对象
决策人员
管理人员
业务操作人员
相关部门
其它部门
相关部门
其它部门
√
√
√
√
√
最小关注频度
年
月
日
备注
介绍元数据库
Microstrategy元数据是存储在关系型数据库中的一个预概念的结构。
Microstrategy概念了那个元数据的结构。
元数据和数据仓库的RDBMS没必要相同。
当应用程序连接到那个元数据库时,所有的框架对象、报表对象、配置对象和项目设置信息都存储在那个地址。
咱们在那个地址利用Oracle数据库来存储MSTR元数据。
预备空的RDB,并概念ODBC
以ORACLE9i为例,在ORACLE中创建一个数据库实例SG186ND。
创建2个用户:
basic_data/basic_data(数据仓库用户)、mstr_user/mstr_user(元数据用户)概念一个系统ODBC,命名为SG186ND_L。
配置元数据库
利用ConfigurationWizard(开始/程序/Microstrategy/ConfigurationWizard)第一项:
下一步,
选择创建元数据表,下一步
选择ODBC数据源名称:
SG186ND_L,输入用户名和密码。
(若是利用Access作为元数据库,那么选择在Access数据库配置资料库,在下面的文本框中输入Access文件的途径即可,系统会创建Access文件并配置ODBC。
)点击下一步。
若是有警告信息,点击关闭,再点下一步。
选择元数据脚本位置,一样情形下系统会依照元数据库类型选择出默许的脚本程序,如本例中系统会找到…..\。
点击下一步。
点击完成。
点击确信。
配置元数据库完毕!
!
连接项目源
项目源对象处于Microstrategy对象的最高级。
一个项目源代表一个元数据库连接。
那个连接能够由两种方式实现:
(1)直接或两层模式:
通过明白DSN、LOGIN、口令连接到元数据库。
(2)效劳器或三层模式:
通过指向一个概念好的IntelligenceServer连接到元数据库。
那个地址第一利用直接方式连接,稍后再把建设好的应用配置成三层模式,以便远程用户能够访问(通过desktop或直接在网页上访问)。
启动MicrostrategyDesktop。
选择菜单工具/项目源治理器,点击添加,输入项目源名称(如Training),选择连接模式为直接,选择ODBC:
SG186ND_L,点击确信(两次)。
能够看到咱们方才创建的项目源Training
创建项目
在应用中概念的MSTR对象(框架对象和用户对象等)隶属于项目。
项目在项目源下,一个项目源下能够有多个项目。
在MicrostrategyDesktop中双击进入适才概念的项目源Training(最初配置一个项目源时,MSTR会创建一个内嵌的用户,用户名是Administrator,口令为空,当进入一个项目源时,需要输入那个项目源的user/PWD。
从平安的角度考虑,进入一个新项目源后,应该修改MSTR内嵌用户Administrator的口令),选择菜单框架/创建新项目。
Desktop弹出项目创建助理:
项目创建助理有4个按钮,用于创建项目和快速初始化一个项目。
在那个地址,第一用创建项目按钮来创建项目,其余按钮的功能在后面介绍。
点击创建项目按钮
输入项目名称和描述,点击确信,在弹出的登录窗口输入用户名(Administrator)和密码(空)。
项目创建完毕后,点击确信。
在项目源下显现新建的项目。
概念数据库实例
数据库实例代表与数据仓库的连接。
用于在某个项目中利用的数据仓库。
在项目源下的治理/数据库实例治理器中点击菜单文件/新建/数据库实例
输入一个数据库实例名称,选择数据库连接类型,[输入描述]
在数据库连接中点击新建,输入数据库连接名称,选择一个指向所要的数据库的
本地系统ODBC数据源;在数据库登录名中点击新建
输入数据库登录和合法的登录ID和密码,点击确信
选择正确的数据库登录名,点击确信
选择正确的数据库连接名称,点击确信。
如此就概念了一个数据库实例,来代表物理的数据仓库。
选择数据仓库表
适才创建了一个项目(TestProject),咱们要在项目中创建报表等BI应用,这些报表需要从数据仓库中的某些TABLES当选取数据。
一个项目需要哪些数据仓库表,就在仓库目录中概念。
每一个项目能够配制不同的仓库目录。
将核心放置所要操纵的项目上(TestProject),选择菜单框架/仓库目录,由于此刻是第一次进入仓库目录对话框,系统会弹出选择数据库实例界面:
选择方才创建的SG186ND数据库实例,点击确信。
系统弹出仓库目录对话框。
左侧是数据仓库中可用的TABLE,右边是选中的数据仓库表。
作为最简单项目,咱们先选取6个张表:
事实表T_SC_EQUIP_REPAIR,维表C_VOL_LEVEL、C_REPAIP_TYPE、CODE_MONTH、CODE_YEAR、CODE_QUARTER。
概念事实
在MicroStrategy产品环境中事实是关联数据仓库中的数值和MicroStrategy报表环境的框架对象。
他们对应到数据仓库中的物理字段,并用以创建对事实数据进行运算的气宇对象。
在该项目中,先概念三个事实(Fact):
PLAN_NUM(打算数),FINI_PLAN_NUM(完成数),REPAIR_RATE(完成率)。
将核心移至TestProject项目下的框架对象/事实中,选择菜单文件/新建/事实,系统载入事实编辑器,并进入到创建事实表达式界面。
先创建PLAN_NUM事实,PLAN_NUM事实存在于事实表T_SC_EQUIP_REPAIR中,在源表下拉列表当选择T_SC_EQUIP_REPAIR,把PLAN_NUM字段从可用的列拖到事实表达式中,在映射方式当选择手动,点击确信:
选中T_SC_EQUIP_REPAIR表前的复选框,点击保留并新建。
确认保留的途径是框架对象/事实,输入对象名称打算数,点击保留。
再创建FINI_PLAN_NUM事实。
FINI_PLAN_NUM事实也存在于事实表T_SC_EQUIP_REPAIR中
确认保留的途径是框架对象/事实,输入对象名称完成数,点击保留。
再创建REPAIR_RATE事实
确认保留的途径是框架对象/事实,输入对象名称完成率,点击保留。
概念实体
在Microstrategy环境中,实体——和组成实体的元素——是业务内容的概念。
你在报表中依如实体来汇总和查看数据。
每一个实体可能具有多个形式;每一个形式可能从多个物理表中表示;实体间会有父子关系。
一个实体的实体形式是考察实体的一个角度。
每一个实体至少有一个实体形式,通常有两个:
ID
描述(DESC)
一些实体可能会有其它描述型形式。
比如,客户实体有客户名称形式,还有地址、Email等其它描述型形式。
实体形式之间必需具有一对一关系。
形式有两种用途:
1.显示:
在报表上或数据阅读时显示
2.条件:
分析或做查询时用于限制条件。
你能够用多个形式使实体加倍灵活。
比如,零售业中的商品实体有两个大体的形式,ID——在数据库中参与快速的运算;名称——保留商品的名称。
由于商品在不同的国家/语言中可能会有不同的名称。
你能够创建另外的实体形式表示外文名称。
你还能够创建其它如尺寸、规格、包装等实体形式。
在那个简单项目中,先概念五个实体(Attribute):
Year(月),Quarter(季),Month(月),Vol_Level(电压品级),Rerair_Type(检修类别),其中Year是Quarter的Parent、Quarter是Month的Parent。
概念Year(年)实体
将核心移至TestProject项目下的框架对象/实体中,选择菜单文件/新建/实体,系统载入实体编辑器,并进入到创建实体形式(ID)表达式界面。
在创建实体形式(ID)表达式界面,选择源表CODE_YEAR,把Year_ID字段从可用的列拖到形式表达式中,在映射方式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 抽取 主题 开发 基础 流程
![提示](https://static.bdocx.com/images/bang_tan.gif)