大数据库系统资源数据库建设总体设计.docx
- 文档编号:29013194
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:18
- 大小:820.63KB
大数据库系统资源数据库建设总体设计.docx
《大数据库系统资源数据库建设总体设计.docx》由会员分享,可在线阅读,更多相关《大数据库系统资源数据库建设总体设计.docx(18页珍藏版)》请在冰豆网上搜索。
大数据库系统资源数据库建设总体设计
1大数据库系统
1.1资源数据库建设
1.1.1总体设计
1.1.1.1总体架构
图1总体架构
本资源数据库主要是汇聚各种来源的数据形成历史库、业务库、基础库、主题库来支撑前端GIS、关系图等服务,以方便各委办局、街道、社区对大数据中心数据的使用。
1.1.1.2数据架构
图2数据架构
资源数据库将分为缓冲层、贴源层,原子层,模型层、应用集市层五层,缓冲层主要用来存储从大数据交换平台过来的数据,其数据结构和交换平台交换过来的结构基本一致,只保留一年的增量信息,目的是当数据抽取出现错误时,能快速定位出问题,快速重抽数据,保证数据处理的时效性。
贴源层共分为两层贴源历史层与贴源标准层,贴源历史层将保留历史变迁数据,方便数据溯源及历史数据分析。
贴源标准层只保留当前版本有效的数据,方便业务系统对原始业务数据的使用,该层会对数据做一定程度的标准化。
原子层存储的是数据的原子信息,属于数据最小颗粒度的信息。
模型层存储的由原子层整合而来的按人口、法人、空间等维度组合的数据,本次项目中主要有人口域、法人域、空间域、事件域。
集市层存储的是主题分析需要用到的主题分析数据。
如人口主题分析数据等。
1.1.1.3技术架构
图3技术架构
结构化数据存放在Oracle中,目前采用的是Oracle11gR2;大数据平台使用的是大数据TDH(TranswrapDataHub);工作流设计调度监控采用中兴的iETL;数据质量稽查采用华傲数据数据DS;质量工单采用华傲数据工单系统。
源数据到缓冲层如果是Oracle的采用DBLink连接源数据,如果是非Oracle的采用iETL的工作流进行数据抽取。
关系数据存储到大数据平台采用ApacheSqoop进行导入;非结构化数据使用FTP的方式存储到大数据平台。
数据应用以JDBC的方式访问结构化数据,数据服务以API的方式访问大数据平台的数据。
1.1.1.4数据来源
目前数据库中的数据主要来源有三部分,第一部分是市交换平台订阅数据,第二部分是中兴的存量数据,第三部分是区各个业务系统的数据。
表格1数据来源描述
数据来源描述
业务单位
数据项
数据量
采集方式
采集频率
市交换平台数据
市流动人口和出租屋综管办
20
2691485
增量
每天
市交换平台数据
市规划国土委
3
76216
增量
每天
市交换平台数据
市监察局
2
2195256
增量
每天
市交换平台数据
市民政局
63
453722
增量
每天
市交换平台数据
市住房和建设局
60
30744916
增量
每天
市交换平台数据
市市场监管局
8
23120820
增量
每天
市交换平台数据
市发改委
16
15749
增量
每天
市交换平台数据
市文体旅游局
54
109242
增量
每天
市交换平台数据
市地税局
15
16715981
增量
每天
市交换平台数据
市城管局
21
2394555
增量
每天
市交换平台数据
市交通运输委员会
6
180703
增量
每天
市交换平台数据
市科技创新委员会
34
59843
增量
每天
市交换平台数据
市国税局
1
414956
增量
每天
市交换平台数据
市人居环境委
22
478859
增量
每天
市交换平台数据
市电子政务资源中心
9
13036565
增量
每天
市交换平台数据
市气象局
9
846356
增量
每天
市交换平台数据
市司法局
5
11439
增量
每天
市交换平台数据
市公安局
1
4188198
增量
每天
市交换平台数据
市水务局
20
526728
增量
每天
中兴存量数据
社会建设局
20
7200
全量
一次
中兴存量数据
城市建设局
14
6714
全量
一次
中兴存量数据
经济服务局
22
20865
全量
一次
中兴存量数据
社会服务中心
9
1161565
全量
一次
中兴存量数据
规土委
2
1524
全量
一次
中兴存量数据
公共事业局
6
63848
全量
一次
中兴存量数据
市场监督局
2
42243
全量
一次
中兴存量数据
税务局
1
20539
全量
一次
中兴存量数据
城市管理局
3
420603
全量
一次
中兴存量数据
药品监督局
1
289
全量
一次
中兴存量数据
社保局
1
4118568
全量
一次
区业务系统
经济服务局
15
11155
全量+增量
每周
区业务系统
纪检监察局
76
43797
全量+增量
每周
区业务系统
新区综合办
281
8175545
全量+增量
每周
区业务系统
建管中心
8
148350
全量+增量
每周
区业务系统
发财局
43
986519
全量+增量
每周
区业务系统
公共事业局
38
44552
全量+增量
每周
区业务系统
前期办
80
14550
全量+增量
每周
区业务系统
城市建设局
51
520432
全量+增量
每周
区业务系统
安监局
21
1063601
全量+增量
每周
区业务系统
社会建设局
29
170740
全量+增量
每周
1.1.1.5ETL设计
1.1.1.5.1数据流向图
图4数据流向图
数据流向之间关系及采用技术说明如下表:
源端
目标端
ETL方法
调度内容
源数据(同构:
Oracle)
缓冲层
数据库链路DBLink
iETL调度存储过程
源数据(异构:
SQLServer、MySQL等)
iETL转换、任务
iETL调度转换
源数据(非结构化数据)
大数据库
FTP
iETL调度Shell脚本
缓冲层
贴源层
存储过程
iETL调度存储过程
大数据库
ApacheSqoop
iETL调度Shell脚本
贴源层
原子层
存储过程
iETL调度存储过程
集市层
视图
大数据库
ApacheSqoop
iETL调度Shell脚本
原子层
主题模型层
存储过程
iETL调度存储过程
集市层
视图
大数据库
ApacheSqoop
iETL调度Shell脚本
主题模型层
数据集市层
存储过程
iETL调度存储过程
数据集市层
视图
大数据库
ApacheSqoop
iETL调度Shell脚本
数据集市层
大数据库
ApacheSqoop
iETL调度Shell脚本
1.1.1.5.2ETL环境
Ø服务器环境
服务器IP地址:
172.16.83.7
服务器操作系统环境:
WindowsServer2008
iETL服务端口:
8086
启动方式:
在CMD命令窗口下执行Qbench.bat172.16.83.78086
ØiETL客户端连接资源库
启动iETL的客户端(iETL.bat),打开“工具-资源库-连接资源库”,新建资源库,配置数据库类型MySQL,资源库IP地址、端口、数据库名已经用户名密码:
ØiETL客户端浏览资源库
在“工具-资源库-探索资源库”就可以看到资源库已经创建的资源情况,包括作业和转换
ØETL任务监控
ETL监控以Web资源的方式供监控。
使用浏览器打开:
http:
//172.16.83.7:
8086/qbench/status即可看到运行中的作业情况
1.1.1.5.3作业目录结构
ETL包括作业和转换,作业用于调度,转换用于数据处理。
01.缓冲层处理数据源到缓冲层,缓冲层到贴源标准层的ETL
03.原子层处理标准层到原子层的ETL
04.合并层处理原子层到模型层的ETL
05.集市层处理模型层到集市层的ETL
11.hadoop平台处理RDBMS到大数据平台的ETL
Ø01.缓冲层/交换平台
Ø01.缓冲层/业务部
Ø01.缓冲层/数据统计
Ø03.原子层/人口
Ø03.原子层/房屋
Ø03.原子层/法人
Ø04.合并层/事件
Ø04.合并层/人口
Ø04.合并层/房屋
Ø04.合并层/法人
Ø04.合并层/部件
Ø05.集市层
Ø11.hadoop平台
1.1.1.5.4转换目录结构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 系统资源 建设 总体 设计
