数据仓库的数据标准化思路Word格式.docx
- 文档编号:13168883
- 上传时间:2022-10-07
- 格式:DOCX
- 页数:5
- 大小:76.80KB
数据仓库的数据标准化思路Word格式.docx
《数据仓库的数据标准化思路Word格式.docx》由会员分享,可在线阅读,更多相关《数据仓库的数据标准化思路Word格式.docx(5页珍藏版)》请在冰豆网上搜索。
1.一号对应一对象。
以病人为例,病人可能在各分院及本院都注册建档,因此同一病人可能在各分院都有不同的ID号,但数据采集到本院,与本院数据合并后,进行标准化处理,应保证此病人具有新的唯一ID号。
同时需保留病人曾经的各分院及本院ID号,便于其他分院数据的关联(如分院的病人缴费数据需要关联原始分院号码,之后以标准化后唯一ID号,进入本院系统)。
2.事实数据标明数据来源。
如病人缴费信息,因为缴费事实产生的位置不同,需要进行来源标注,分清本院及各分院,便于数据理解及之后的查询和统计。
在构建DW时的数据标准化处理流程上,可以考虑通过以下方式来完成。
标准化准备
在标准化处理之前,需要对DW表格结构进行一些处理,使得标准化过程易于实施,也保证标准化的结果更易于理解。
对于不同的表格上,所需新增的字段也不尽相同。
下面分类进行说明:
维表
比如病人信息,科室信息,员工信息,设备信息等,新加字段如下:
字段名
类型
说明
备注
ID
数字
代理键,主键
由序列生成,新的唯一ID号
HISTORY_IDLIST
文本
曾经使用的编号列表
对应分院+分院ID号,以;
分隔
START_DATE
日期
记录生效时间
拉链使用,可选
END_DATE
记录失效时间
事实表
如病人缴费,医生处方,手术记录等,新加字段如下:
SOURCE_ID
数据来源,本院、分院
表示数据来源;
应新增本院/分院信息维表,记录source_id对应的分院名,地址,热线等信息
ARCHIVE_FLAG
记录是否可归档(Y/N)
对于已处理完成的信息,如病人已出院,进行可归档标记;
DW保留一段时间后,可考虑部分归档数据迁移到二级存储,减轻压力
START_TIME
数据标准化处理
在数据标准化的处理过程中,也应分为两步进行处理,先进行维表的代码(如ID号)标准化,然后将事实表中的记录以标准化后的代码配合原来的事实信息(如缴费)及数据来源标记(哪个分院)采集到DW标准事实表中。
维表标准化
1.维表标准化以病人维表为例进行说明
2.将本院及各分院的维表数据采集到DW标准库的缓冲区(可将本院及各分院数据放置于缓冲区的不同用户下)
3.首先标准化本院数据,标准化后的数据写入标准表格。
以病人身份证号进行区分,身份证号第一次出现时,取新的序列值为病人的标准化ID号,并将病人的原始信息(本院编号+原始ID号)记入history_idlist字段;
同一身份证号之后重复出现时,将病人的原始信息添加到history_idlist字段即可。
4.之后标准化分院数据,对于本院中未出现的身份证号,取新的序列值为病人的标准化ID号,并将病人的原始信息(分院编号+原始ID号)记入history_idlist字段;
注:
在病人的原始信息记入history_idlist字段时,可选择同时将标准化的病人ID号和原始ID号写入一个代码转换表,便于之后分院事实表通过此代码转换表,根据原始ID号,找到新的标准化ID号。
当然,分院事实表也可通过对标准化病人维表的history_idlist字段的全文搜索,找到对应的标准化ID号。
实际实施中,以实施效率进行灵活调整即可。
事实表标准化
1.将本院及分院的事实表数据采集到DW标准库的缓冲区
2.本院及分院事实表需与上一步生成的代码转换表关联(或搜索history_idlist字段),根据原始病人ID号,找到新生成的标准化ID号,联合其它的事实数据(如缴费),写入到新的标准化事实表
3.本院及分院事实表数据写入DW标准库的同时,在标准化事实表的source_id字段中标注事实数据来源(本院或分院的编号)
DW数据标准化实施
在实施标准化时,可分为标准化初始化-增量标准化来实施,标准化初始化处理数据量最大,之后增量标准化,只要采集增量数据到缓冲区即可。
标准化初始化
标准化初始化示意图如下:
初始化主要完成以下工作:
1.以某个时间点为界,采集本院、分院数据到DW标准库缓冲区
2.在缓冲区进行数据标准化后,写入DW标准库
3.写入完成后,清理缓冲区,但建立了代码转换表的话,代码转换表可保留
标准化增量
标准化增量示意图如下:
标准化增量主要完成以下工作:
1.将本院、分院从初始化以来的增量数据采集到DW标准库缓冲区
之后每次增量时,重复标准化增量操作即可。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 标准化 思路