集团大数据平台整体方案建议书-最终版x.docx
- 文档编号:166230
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:533
- 大小:11.72MB
集团大数据平台整体方案建议书-最终版x.docx
《集团大数据平台整体方案建议书-最终版x.docx》由会员分享,可在线阅读,更多相关《集团大数据平台整体方案建议书-最终版x.docx(533页珍藏版)》请在冰豆网上搜索。
集团大数据平台
整体方案建议书
533
目录
1项目概述 14
1.1建设背景 14
1.1.1集团已有基础 14
1.1.2痛点及需提升的能力 14
1.1.3大数据趋势 15
1.2建设目标 15
1.2.1总体目标 15
1.2.2分阶段建设目标 16
1.3与相关系统的关系 16
1.3.1数据分析综合服务平台 16
1.3.2量收系统 17
1.3.3金融大数据平台 18
1.3.4各生产系统 18
1.3.5CRM 18
1.4公司介绍和优势特点 18
1.4.1IDEADATA 18
1.4.2TRANSWARP 20
1.4.3我们的优势 21
2业务需求分析 24
2.1总体需求 24
2.2数据管理 25
2.2.1数据采集 25
2.2.2数据交换 26
2.2.3数据存储与管理 26
2.2.4数据加工清洗 27
2.2.5数据查询计算 27
2.3数据管控 28
2.4数据分析与挖掘 28
2.5数据展现 29
2.6量收系统功能迁移 30
3系统架构设计 31
3.1总体设计目标 31
3.2总体设计原则 31
3.3案例分析建议 32
3.3.1中国联通大数据平台 32
3.3.2恒丰银行大数据平台 40
3.3.3华通CDN运营商海量日志采集分析系统 51
3.3.4案例总结 56
3.4系统总体架构设计 57
3.4.1总体技术框架 57
3.4.2系统总体逻辑结构 61
3.4.3平台组件关系 63
3.4.4系统接口设计 68
3.4.5系统网络结构 72
4系统功能设计 74
4.1 概述 74
4.2平台管理功能 74
4.2.1多应用管理 74
4.2.2多租户管理 78
4.2.3统一运维监控 79
4.2.4作业调度管理 98
4.3数据管理 100
4.3.1数据管理框架 100
4.3.2数据采集 102
4.3.3数据交换 105
4.3.4数据存储与管理 106
4.3.5数据加工清洗 124
4.3.6数据计算 125
4.3.7数据查询 140
4.4数据管控 159
4.4.1主数据管理 159
4.4.2元数据管理技术 161
4.4.3数据质量 164
4.5数据ETL 171
4.6数据分析与挖掘 173
4.6.1数据分析流程 175
4.6.2R语言开发环境与接口 176
4.6.3并行化R算法支持 177
4.6.4可视化R软件包 180
4.6.5编程语言支持 182
4.6.6自然语言处理和文本挖掘 182
4.6.7实时分析 183
4.6.8分析管理 183
4.6.9分析支持 187
4.6.10指标维护 187
4.6.11分析流程固化 188
4.6.12分析结果发布 188
4.6.13环境支持 188
4.7数据展现 189
4.7.1交互式报表 191
4.7.2 仪表盘 196
4.7.3即席查询 197
4.7.4内存分析 198
4.7.5移动分析 199
4.7.6电子地图支持 199
5技术要求实现 201
5.1产品架构 201
5.1.1基础构建平台 204
5.1.2大数据平台组件功能介绍 205
5.1.3系统分布式架构 243
5.2运行环境支持 245
5.2.1系统操作支持以及环境配置 245
5.2.2与第三方软件平台的兼容说明 246
5.3客户端支持 247
5.3.1客户端支持 247
5.3.2移动端支持 247
5.4数据支持 247
5.5集成实现 249
5.6运维实现 251
5.6.1运维目标 251
5.6.2运维服务内容 252
5.6.3运维服务流程 254
5.6.4运维服务制度规范 256
5.6.5应急服务响应措施 257
5.6.6平台监控兼容 257
5.6.7资源管理 258
5.6.8系统升级 260
5.6.9系统监控平台功能 261
5.7平台性能 269
5.7.1集群切换 269
5.7.2节点切换 271
5.7.3性能调优 272
5.7.4并行化高性能计算 277
5.7.5计算性能线性扩展 280
5.8平台扩展性 281
5.9可靠性和可用性 283
5.9.1单点故障消除 283
5.9.2容灾备份优化 285
5.9.3系统容错性 289
5.10开放性和兼容性 291
5.10.1高度支持开源 294
5.10.2操作系统支持以及软件环境配置 306
5.10.3兼容性与集成能力 307
5.11 安全性 308
5.11.1身份鉴别 309
5.11.2访问控制 309
5.11.3安全通讯 315
5.12核心产品优势 315
5.12.1高速运算、统计分析和精确查询 315
5.12.2有效的资源利用 317
5.12.3高并发、低延迟性能优化 318
5.12.4计算资源有效管控 319
5.12.5API设计和开发工具支持 320
5.12.6友好的运维监控界面 322
5.12.7扩容、备份、恢复机制 326
5.12.8集群自动负载均衡 328
5.12.9计算能力扩展 328
5.13自主研发技术优势 328
5.13.1高稳定、高效的计算引擎Inceptor 328
5.13.2完整的SQL编译引擎 330
5.13.3高性能的SQL分析引擎 330
5.13.4SQL统计分析能力 331
5.13.5完整的CURD功能 332
5.13.6Hyperbase高效的检索能力 333
5.13.7基于Hyperbase和SQL引擎的高并发分布式事务 335
5.13.8Hyperbase非结构化数据的支持 336
5.13.9机器学习与数据挖掘 336
5.13.10TranswarpStream 340
5.13.11内存/SSD/磁盘混合存储 342
5.13.12MR/Spark/流处理统一平台 344
5.13.13多租户支持能力 345
5.13.14多租户安全功能 346
5.13.15标准JDBC与ODBC接口 346
6系统性能指标和测试结果说明 348
6.1性能测试报告 348
6.1.1测试目标 348
6.1.2测试内容 348
6.1.3测试环境 348
6.1.4测试过程和结果 350
6.2TPC-DS测试报告 353
6.2.1测试目标 353
6.2.2测试内容 353
6.2.3测试环境 355
6.2.4测试过程和结果 356
6.3量收迁移验证性测试报告 357
6.3.1测试目标 357
6.3.2测试内容 357
6.3.3测试环境 358
6.3.4串行执行情况 358
6.3.5并行执行情况 360
6.3.6生产表数据规模 361
6.3.7测试结果 363
6.4某银行性能测试报告 363
6.4.1测试目标 363
6.4.2测试内容 363
6.4.3测试环境 363
6.4.4测试过程和结果 364
7系统配置方案 376
7.1硬件系统配置建议 376
7.1.1基础Hadoop平台集群配置规划 376
7.1.2数据仓库集群配置规划 378
7.1.3集群规模综述 380
7.1.4开发集群配置建议 381
7.1.5测试集群配置建议 381
7.2软件配置建议 382
7.3软硬件配置总表 383
7.4网络拓扑 385
8系统测试 386
8.1系统测试方法 386
8.2系统测试阶段 387
8.3系统测试相关提交物 388
9项目实施 390
9.1项目实施总体目标 390
9.2项目管理 390
9.3业务确认 391
9.4数据调研 392
9.5系统设计阶段 393
9.6集成部署阶段 394
9.7ETL过程设计 394
9.8ETL开发与测试 395
9.9系统开发阶段 396
9.10系统测试阶段 397
9.11系统上线及验收 398
9.12 提交物 400
9.13 系统的交接与知识转移 402
10项目管理 404
10.1项目总体管理 404
10.1.1项目实施总流程 404
10.1.2项目实施中各阶段的主要任务 404
10.1.3项目组织架构 409
10.1.4项目负责人及主要成员 415
10.1.5项目管理制度 490
10.2项目质量管理 493
10.2.1 范围 494
10.2.2过程目标 494
10.2.3角色与职责 494
10.2.4过程活动 496
10.3项目计划 499
11安全保密 509
12知识产权 511
13技术服务 512
13.1现场支持服务 512
13.2标准售后技术服务 513
13.2.1提供预防性维护 513
13.2.2系统升级服务 514
13.2.3系统性能优化 514
13.2.4提供系统完整文档 514
13.2.5定期系统健康检查服务 515
13.2.6应急预案 516
13.3 承诺 516
13.3.1我方对集团的承诺 516
13.3.2关于开发队伍的承诺 516
13.4技术保证 517
13.4.1方案实用性保证 517
13.4.2应用系统的运行能力的保证 517
13.4.3预防性维护检修内容 517
13.4.4服务响应 518
13.4.5关于软件维护的保证 518
13.4.6专业服务保证 519
13.4.7售后服务流程及时限 519
14人员培训 520
14.1HADOOP系统培训 521
14.2业务使用培训 522
14.3分析挖掘培训 523
14.4运行维护培训 525
14.5开发培训 526
14.5.1培训目标 530
14.5.2培训方式 530
14.5.3培训资源 531
1项目概述
1.1建设背景
1.1.1集团已有基础
经过十几年的信息化建设,集团已经积累了覆盖邮务、速递物流、金融三大板块的海量生产和经营数据,这些数据分布在集团各类应用系统和数据库中,支撑着集团业务的发展。
集团初步搭建了由名址系统、量收系统、速递平台系统、数据分析平台组成的初步的数据仓库,为数据分析挖掘工作打下了一定的技术基础。
组建了专业的组织架构促进企业数据管理与应用的规范化与制度化。
集团已成立数据中心,集团数据中心和各省的数据分析团队已经进行了多个专题的数据分析与成果应用的尝试。
1.1.2痛点及需提升的能力
集团拥有丰富的客户资源,海量的数据积累。
在大数据时代,要充分挖掘数据价值,跟上时代的步伐。
板块间数据存在壁垒,共享不足,无法实现集团企业数据的充分有效利用。
数据存在冗余、分散、安全性差、一致性差等问题,应建立有效的数据管控体系,打破信息孤岛、实现企业信息数据共享、提升数据价
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集团 数据 平台 整体 方案 建议书 最终版