省级BI规范地市数据集市实施建议Word下载.docx
- 文档编号:19260347
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:15
- 大小:23.22KB
省级BI规范地市数据集市实施建议Word下载.docx
《省级BI规范地市数据集市实施建议Word下载.docx》由会员分享,可在线阅读,更多相关《省级BI规范地市数据集市实施建议Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
大客户基本信息
基本集
大客户管理子系统负责信息收集,录入和展现;
部分扩展属性由数据集市提供
大客户活动信息
大客户预警信息
主动服务及营销
可选集
大客户经理报表
集团客户经理
集团客户基本信息
集团客户子系统负责信息收集,录入和展现;
集团客户成员信息
集团客户活动信息
集团客户预警信息
集团客户经理报表
集团客户V网潜在成员发现
策划经理
目标客户群
数据仓库创建模型,数据集市展现
资费套餐评估
资费收益测算
短期促销活动分析
新业务产品分析
数据集市
渠道管理
渠道基本信息
渠道管理系统负责信息收集,录入和展现;
资源情况
渠道酬金
渠道评估
管理者
日KPI
月KPI
经营分析师
客户属地化分析
竞争对手用户属地化
忙时集中系数
普通客户离网预警模型
欠费分析
在网客户分析
中高端客户分析
普通客户离网分析
营销成本
客户投诉
二、分工界面
各省公司在进行地市数据集市建设时需要从参与地市数据集市建设的地市公司中抽调4-5人,与集成商、应用软件开发商和原厂商共同组成地市数据集市项目管理实施小组,依据《中国移动经营分析系统数据集市试点业务技术规范》、《中国移动经营分析系统地市数据集市逻辑数据模型》及相关附件的要求,根据本省实际情况制定建设方案并负责实施。
各省公司直接负责地市数据集市的工程建设工作;
地市分公司负责提供业务需求,业务需求以地市分公司市场部人员为主提供;
集成商负责项目建设的协调工作;
应用软件开发商负责系统平台的建设、应用软件开发上线和维护;
原厂商负责提供系统软件、硬件设备安装调试、技术支持和保修。
三、技术支持与保修
应用软件开发商和原厂商负责提供系统终验后为期一年的技术支持服务与保修。
四、全国部署建议
Ø
参加过数据集市试点的12个省公司在所有地市进行部署
浙江、山东、河南、河北、四川、福建、湖北、江西、陕西、黑龙江、吉林和云南
没有参加过数据集市试点的其它省公司
广东、江苏、上海在全部地市分公司部署
辽宁、湖南部署50%以上地市分公司
山西、广西、海南、重庆、安徽部署3个地市分公司
内蒙、贵州、新疆、甘肃、宁夏、青海和西藏部署1个地市分公司
五、工程进度安排
各省地市需在2006年12月31日之前完成数据集市基础平台的构建以及“基本集”应用的开发上线;
在2007年3月30日之前完成“可选集”应用的开发上线。
本次工程业务满足期截止到2007年12月31日。
六、工程管理办法
数据集市项目工程管理办法将另文通知。
七、相关要求
1.中国移动经营分析系统地市数据集市知识产权归属于中国移动通信有限公司。
2.数据集市的建设和应用应遵循“平台标准化、业务个性化”的原则。
平台标准化是指数据集市基础平台应选用标准的第三方硬件和系统软件,数据集市的逻辑数据模型必须是统一的、标准的;
业务个性化是指各地市分公司在开发应用功能时,应结合本地的实际情况,体现本地的特色。
3.数据集市的建设本着开放性原则要求提供数据的标准开放接口,确保能够支撑第三方应用的开发。
4.在地市数据集市应用的开发过程中,应本着资源利用最大化的原则。
尽量利用轻度汇总层和其它汇总数据,避免频繁使用明细级的数据,充分提高系统的访问效率。
5.在地市数据集市应用的开发过程中,逐步将地市的外围相关系统整合至数据集市之中。
6.数据集市中的详单类等基础数据完全由省级数据仓库提供,避免由BOSS等其他生产系统直接提取数据。
7.加强对收集、录入数据的管理工作。
为了对大客户、集团客户和渠道等对象进行更为详尽、全面的分析,省公司应发布相应的管理办法,地市分公司也应重视相关信息的收集整理工作,尽量通过业务前台、客户经理等,完成有关数据的收集和录入工作。
8.在项目建设和后期维护过程中,应重点加强对人员的培训。
应能在本次项目结束后为地市培训出一批能够独立完成数据集市分析、使用、维护和开发的人员。
八、投资建议
投资原则:
◆地市数据集市(以下简称为“数据集市”)的投资范围:
主机、存储的投资、软件平台的投资、应用软件投资。
◆投资满足期:
本期数据集市的投资应满足工程的业务满足期至2007年底。
◆科学评估:
正确评估旧设备的利用价值和新设备的投入以及后续的扩容能力,由于数据集市是为地市分公司建立的单独的数据库,因此如果条件许可,可以充分考虑地市分公司主机的利旧。
◆总投资以用户数为基本参数,建议地市公司用户数在200万以内的集市每用户投资系数在4元到6元之间,200万用户以上建议投资在2元到4元之间。
九、地市数据集市投资参数分析
(一)、基本参数
◆细节数据的在线存储时间:
由于数据集市的数据主要来源于省级经营分析系统数据仓库(以下简称为“数据仓库”),因此考虑到数据集市数据的存储和性能,不必存放太多的历史数据,只需满足短期分析即可,目前设定清单、帐单数据为:
3个月,其它数据为1个月。
如需要采用数据挖掘等应用,可以临时从省级数据仓库中获取样本用户的更多相关数据。
◆数据集市ETL文件的在线保留时间:
由于数据集市的数据主要来源于数据仓库,存储空间也基本放在数据仓库中,因此在线保留时间可以减少,但同时为了能够应对数据集市数据的错误回退和其他错误流程,也可以适当考虑增大此类数据存储空间。
◆当前移动用户数:
主要考虑数据仓库支撑的移动通信用户数。
◆数据集市备份考虑:
由于数据集市来源于数据仓库,因此除地市分公司个性化数据之外,基础明细数据基本不需要脱机备份。
◆存储时间一致:
考虑数据集市的存储支撑时间应和数据仓库的存储支撑时间保持一致。
(二)、数据集市主机平台投资建议
数据集市业务处理流程整体分析:
数据集市在处理过程中相关的服务器主要完成以下两大部分工作:
◆数据集市数据ETL,包括从数据仓库的数据抽取、简单处理、装载生成数据集市数据;
◆数据集市展现数据生成,包括KPI、OLAP、预定义报表、即席查询、预定义查询、数据挖掘等。
相应地,数据集市中需要投资的主机平台在逻辑上划分为ETL服务器,数据集市服务器或者服务器群、OLAP服务器、数据挖掘服务器、WEB服务器。
ETL服务器性能计算:
(1)ETL服务性能分析:
ETL服务器的考虑基本以日数据作为测算的依据,通过数据集市得到日处理数据量的峰值,1天全部的记录数多少,需要在多少分钟内完成ETL的工作,测试省级经营分析系统每抽取多少张清单,大约需要1个TpmC;
同时保留30%的性能冗余。
ETL服务器主要的处理工作包括以下方面:
◆以数据仓库或文件系统作为数据源抽取数据集市数据(本过程称为E)。
◆每日对上述抽取过来的全部数据进行清洗、转换和分发(本过程称为T)。
◆将上述处理分发完成的数据加载到数据集市中(本过程称为L)。
以上工作设定其工作流程为串行关系。
这样,ETL的处理能力要求为:
MAX(E处理能力要求;
T处理能力要求;
L处理能力要求)。
TpmC的推荐计算公式如下:
E、T、L处理能力要求计算方式:
1)所有抽取要求在X小时内完成;
2)每日处理记录的数量大约为(每日语音清单数+每日数据业务清单数等);
3)平均处理N条记录所需的事务数为1;
4)TPCC(E、T、L)=记录数/(处理时间*60)*处理一条记录所需的事务数。
(2)ETL服务器TPCC处理能力要求计算:
综合TPCC处理能力要求计算:
L处理能力要求)
同时我们考虑如下因素:
◆增加服务器处理能力的20%,需运行ETL管理等应用;
◆考虑到处理过程中可能遇到的高峰期和用户数不可预料的增长情况,服务器的处理能力冗余30%。
◆ETL服务器实际所需TPCC:
TPCC=MAX(TPCC(E),TPCC(T),TPCC(L))*(1+增加服务器处理能力%)*(1+服务器的处理能力冗余%)
=记录数/(处理时间*60)*处理一条记录所需的事务数*(1+增加服务器处理能力%)*(1+服务器的处理能力冗余%)
=XXXXTpmC
◆扩容需求:
考虑利旧主机的TpmC值是否可以达到数据集市的处理性能要求,如果不足则需要扩容投资。
数据集市服务器性能计算:
数据集市服务器有两种考虑:
◆建立在省公司的统一的数据集市服务器
◆建立在地市分公司的单独的数据集市服务器
TPCC推荐计算公式如下:
使用下列的条件对数据集市的处理能力需求进行分析:
1)所有工作每日要求在X小时内完成;
2)每日处理记录的数量大约为N;
3)平均处理X条记录所需的事务数为1。
则,需要的TPCC为:
TPCC(数据集市)=记录数/(处理时间*60)*处理一条记录所需的事务数
如果建立在省公司的统一的数据集市服务器:
可以综合考虑主机性能和TPCC值的关系。
如果建立在地市分公司的单独的数据集市服务器:
则要根据用户数分摊主机性能到不同的地市分公司。
性能指标:
假设一台服务器一个CPU的时候,经测试得到TpmC值为3000。
随着服务器的增加(在不考虑内存的需求,一般情况内存同步增多)CPU横向扩展的性能提高不是线性增长。
注:
在N个CPU的服务器增加一个CPU,假如如果单个CPU可以提供的TPCC值为T,则后增加的CPU为原来的服务器增加的TPCC大约为:
T×
(97%)N。
服务器并行,可提供的TpmC值扣除并行服务系统需要的CPU负荷后,可以提供的有效TpmC值和在单台服务器器增加处理器资源上相近。
经计算预估300万用户的数据集市主机性能要求如下:
数据集市主机性能估算
用户量
3000000
A
用户话单/天
10
B
移动来访话单(语音话单10%)
1
C
移动结算话单(语音话单40%)
4
D
短信话单(语音话单10%)
E
其他新业务详单/天
3
总话单量
57000000
F
日处理记录与详单数的比例系数
1.3
G
平均每事务数处理的记录条数
H
每日所有工作要求完成的时限(小时)
2
I
系统冗余
30%
TPMC值
80275
(三)、数据集市存储平台投资建议
数据集市存储平台:
(1)数据集市磁盘容量计算公式
一般而言,数据库的物理磁盘容量计算方法为:
最小磁盘空间需求MDSR(MiniumDiskSpaceRequirements)=
原始数据*数据库及相关工作空间因子*RAID因子*文件系统因子
其中:
◆数据库及相关工作空间因子
需要考虑系统缓冲区、工作空间、索引、临时表等因素。
对于一般的数据仓库应用而言,此因子要求约为1.65,即为100GB的用户数据空间保留65GB的数据库管理和工作空间
◆RAID因子
对于Raid1和Raid5两种磁盘数据保护技术而言RAID因子是不一样的:
对于Raid5,此因子一般取为1.25;
对于Raid1(镜像),此因子为2。
一般来讲,Raid1提供了比Raid5更好的性能以及数据保护机制,但是相应地可能造成投资的增加。
◆文件系统因子
考虑到UNIX操作系统、RAID管理软件等因素而设。
根据实际使用经验,此因子约为1.1。
(2)数据集市存储容量需求计算
如下计算按照地市300万用户对主要数据进行估算,本次估算把数据库的活动空间相关因子平衡到各主要部分数据冗余上,由于从数据仓库直接加载到数据集市,因此忽略文件因子,具体计算结果如下:
数据集市存储容量估算
用户数(万)
主题名称
编号
实体名称
每用户记录条数
每条记录字节数
数据存储时间
详细说明
小计(GB)
合计(GB)
(月)
服务使用
移动CDR清单
300
1080
1944
移动来访CDR清单
按移动CDR清单的10%计算
108
结算话单
按移动CDR清单的40%计算
432
短信清单
其他新业务清单
200
216
服务主题
用户资料
2000
6
30
用户历史
24
帐务主题
用户帐单
13
11.7
48
帐户帐单
0.5
250
4.875
J
用户明细帐单
180
21.6
K
其他营帐数据冗余
按F-J之和的20%计算
10.23
其他资料
L
渠道、SP、资源等数据
按F-J之和的10%计算
6.82
日志索引
M
按A-L之和的50%计算
1014.61
小计:
3043.83
其它数据
N
宽表、中间表、临时表等
按上述数据A-M的30%计算
913.15
文件系统
O
计算中间临时文件、接口文件等
按上述数据A-L的20%计算
93.66
1006.80
raid5计算
总计:
5400.84
表1-1数据集市存储容量估算表
(3)ETL、OLAP、数据挖掘存储计算
本部分可使用原有数据仓库系统的相关存储。
(四)、数据集市软件平台
考虑到数据仓库的特点,我们在系统软件的选择上应该保持开放性,并本着节约利旧的原则,尽量使用省公司已有的相关软件工具。
本期工程前端展现原则上采用报表和查询等方式。
底层数据仓库软件估算:
数据集市软件的投资根据liences和具体的数据库厂商确定。
数据集市应用软件估算:
因各省公司地市数据集市的应用需求不等,并且实现的程度和复杂性取决于各省地市分公司的实际情况。
因此,应用软件的具体投资需参照各厂商的报价。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 省级 BI 规范 地市 数据 集市 实施 建议