讲解数据仓库与数据挖掘案例分析.docx
- 文档编号:7856831
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:14
- 大小:22.45KB
讲解数据仓库与数据挖掘案例分析.docx
《讲解数据仓库与数据挖掘案例分析.docx》由会员分享,可在线阅读,更多相关《讲解数据仓库与数据挖掘案例分析.docx(14页珍藏版)》请在冰豆网上搜索。
讲解数据仓库与数据挖掘案例分析
[讲解]数据仓库与数据挖掘案例分析
补充:
结合电信领域的特点,通过一个应用实例来说明数据仓库的具体实施。
第一阶段:
项目的需求和目标分析
一(主题划分
电信公司
分公司
网管营业计费账务核算客户市场营
中心厅中心中心中心中心销部门
记获登收管管记形录取记集理理录成
电信代销、市场竞注册/计费/投诉/支付网络分销商争信息变更账务咨询
消形
费成形登成记
图1一个简单的电信企业模型
客户在电信企业中,现有的业务数据库系统一般包括客户服务DB、网管DB、计费DB、账务DB、市场信息DB、营销信息DB等。
通常按照电信公司的业务需求可能将其主题域划分为:
1(客户发展:
主要是对客户群体进行分类后,从不同的角度展现公司提供服务的客户数量情况。
可以按照客户本身的自然属性(如年龄、入网时间、受教育程度等)、客户的扩展属性(如信用度、客户价值、流失概率、挽留价值等)等不同的角度进行划分。
2(收益分析:
主要是通过不同的角度对电信企业的收益情况进行分析。
收益分析的角度可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营进行划分,还可以按照机构设置、地理角度对收益进行划分。
3(呼叫特征分析:
分析不同类型客户在呼叫上具有的特征。
具体的衡量指标包括很多,例如:
把呼叫分成长呼叫、中呼叫、短呼叫。
4(业务发展:
主要是对电信公司提供的各种业务的使用客户人数、客户特征、收益金额进行比较,以发现具有潜力的业务或者为开展能够吸引更多客户的新业务提供指导。
5(营销管理:
主要是对各电信营业厅、电信分销商、代销商的经营状况进行分析。
6(市场竞争:
主要是对电信运营商的竞争对手的客户发展、收益、业务运营等多方面的信息进行收集并分析,从而为本企业提供市场竞争的策略。
其中涉及的数据主要是外部数据和非格式化数据。
7(服务质量:
主要包括发现客户投诉、咨询的焦点,发现公司内部在运营上存在的问题等。
8(网络优化管理:
分析如何有优化网络的配置、如何更好的对网络进行管理等问题。
二(电信领域常见的数据挖掘层次的问题
1(客户群体划分:
客户群具有两个金字塔(占总客户数10%的大客户的消费金额占了总客户消费金额的70%)。
对客户群体进行合理的划分,有利于公司了解一下信息:
公司的主要客户群体的情况;
主要客户群体的呼叫特征行为;
主要客户群体对业务的需求;
大客户群体的呼叫特征行为;
大客户群体对业务的需求;
在对客户进行合理划分的基础上,可以针对不同客户群体的特点采用不同的策略,对其消费行为进行合理的引导。
(可以采用聚类或分类的方法)
2(客户流失划分:
挽留一个老客户比争取一个新客户付出的代价要小得多。
3(客户欺诈分析:
主要针对可能出现的客户恶意欠费问题进行分析。
4(网络规划优化
5(网管中的分析问题:
网络优化、网管故障的相关性分析、统计设备的故
障率等。
三(项目规划
在项目初期,应当选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现有系统或通过其他方式获取数据的决策目标作为系统初期的任务。
在后续阶段,根据新的需求、现有系统的改造情况、积累的经验确定新的决策目标,逐步发展完善数据仓库系统。
在建设初期,可以将以下五个主题列在前期任务考虑之内。
客户发展分析
收益情况分析
呼叫特征分析
营销管理分析
业务发展分析
作为螺旋开发的第一个循环,建议先将客户发展、收益分析、呼叫特征分析列入第一阶段的任务。
四(需求分析的形成
1(任务说明书:
在任务书中,指明了DW中涉及的主题有3个:
客户发展、收益分析、呼叫特征分析。
在DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行合理的评估。
2(需求说明书:
任务说明书需要设计人员进一步将其细化成需求说明书。
在进行需求分析的时候,设计人员最少应当访问如下的几类人:
(1)项目负责人:
对整个项目的宏观目标和方向有比较准确的把握,对DW项目有全境式的认识。
(2)主题涉及部门的管理人员:
了解部门内部对数据的需求。
使得设计人员能够站在管理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。
(3)DSS分析员和未来使用DW系统的最终用户:
从他们那里了解他们目前是如何为管理层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇到的棘手问题有哪些,另一方面是他们对DW系统的需求和希望,并可以从最终用户那里了解比较细致的需求。
(4)企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不是DBA)、数据库管理员、数据库设计人员、程序员:
从他们那里了解现有业务系统是如何构造的、现有系统的运行情况、现有系统中存在哪些问题、应该从哪儿获取需要的数据。
各类人员同项目需求的关系如下图所示:
了解项目的全境,项目负责人把握项目的目标和方向
了解部门内部对数据的需求部门高层管理人员
决策辅助信息的使用者(当然还包括
更高层的人员)
了解部门内部某一部分对数据的需求DSS分析员未来的最终用户及其细节
手工的数据分析、非集
成的数据分析
业务系统业务系统业务系统
ABC
业务系统的设计、使
用、维护者
了解现有系统的细节企业技术人员
设计人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终给出一个比较具体的功能需求描述。
下表给出一个收益分析主题的功能需求分析例子。
不同时期的收入总量分析及预测。
收益结构分析(月租费、本地话费、漫游费、收益分析
入网费、卡费等)
功能名称功能描述度量涉及维度维成员
品牌和业务构成
收益的品牌构成各种品牌在企业总收益、收益品牌神州行、
收益中所占比重和百分比全球通
数量
收益的业务构成各项业务在企业总收益、收益业务类别通话、
收益中所占比重和百分比短信息
数量
呼叫特征
企业收益的主/被主叫、被叫对于企收益、收益主/被叫主叫、被叫
叫构成业收益的贡献百分比
企业收益的呼叫长途、漫游、本地收益、收益通话类型长途、漫
类型构成对于企业收益的贡百分比游、本地
献
企业收益的呼叫不同时长的呼叫对收益、收益呼叫时长1分钟以下
时长构成于企业收益的贡献百分比1~5分钟
5~10分钟
10分钟以
上等客户特征
企业收益的客户不同性别客户对于收益、收益客户性别男
性别构成企业收益的贡献百分比、客女
户数量未知企业收益的客户不同年龄段客户对收益、收益客户年龄段18以下
年龄构成于企业收益的贡献百分比、客18~22
户数量。
。
。
企业收益的大客大客户和普通客户收益、收益是否大客户大客户
户构成对于企业收益的贡百分比维普通客户
献
企业收益的客户企业收益客户类型客户数量、客户类型单位、
类型构成的百分比构成百分比个人企业收益的不同不同在网时间客户收益、收益在网时间维一年以下
在网时间客户构对于企业收益的贡百分比、客1~2年成献户数量。
。
。
企业收益的客户。
。
。
收益、收益客户信用积根据数据
信用积分构成百分比、客分的具体分
户数量布企业收益的客户。
。
。
信用度客户信用度按照挖掘
信用度层次构成后的结果
进行划分企业收益的客户。
。
。
收益、收益客户消费层按照挖掘
消费层次构成百分比、客次后的结果
户数量进行划分
企业收益的客户。
。
。
收益、收益客户离网概按照挖掘
离网概率层次构百分比、客率层次后的结果
成户数量进行划分
企业收益的客户。
。
。
收益、收益客户挽留价按照挖掘
挽留价值层次构百分比、客值层次后的结果
成户数量进行划分
企业收益的客户。
。
。
收益、收益客户价值层按照挖掘
价值层次构成百分比、客次后的结果
户数量进行划分
企业收益中小客。
。
。
收益、收益中小客户成按照挖掘
户成为大客户概百分比、客为大客户概后的结果
率层次构成户数量率层次进行划分
欠费情况和预测
欠缴费比例。
。
。
金额(收欠缴费欠费、
益)、缴费
金额百分
比、
客户数量、
客户数量
百分比
不同时期的企业。
。
。
欠费金额时间月、季、半
欠费金额年、年
不同时期的企业。
。
。
欠费客户时间月、季、半
欠费数量数量年、年
收益预测
话费收益预测。
。
。
短信费收益预测。
。
。
不同时期的企业。
。
。
收益时间月、季、半
收益情况收益/欠费年、年
百分比
在完成功能需求后,可以用一个数据搜集报告把所需的不同的数据源的属性
列出来。
此报告至少包含如下的内容:
数据源(内/外部数据源)
负责维护此数据的个人/组织
设计该数据库的DBA
数据使用的存储方式
数据中包含的表、字段、记录的数据,数据的大小
数据的物理存储介质
安全需求
数据在使用上的限制,数据是否涉及用户的隐私问题
数据描述报告中应包含如下内容:
字段/列的数据
字段是空缺值的数据/百分比,字段的名字
对于每个字段,通常需要记录:
数据类型
数据定义
数据描述
计量单位
所有不同值的个数,值的列表
值的范围
空值的百分比
收集信息(例如怎么得到、在哪、什么条件下)
时间频度(每天、每周、每月),特别时间数据
主键/外键关系
第二阶段系统结构和模型设计
一(系统结构设计
1(数据量的估算
2(系统硬件结构/软件结构选择:
根据数据量的估算,选择相应的软硬件配制。
二(DW模型的设计
1(可利用的数据:
要确定完成以上3个主题,需要3部分信息:
客户的基本信息表
客户的账单
客户的呼叫信息表(CDR表)
用户基本信息表用户账单CDR表
呼叫类型用户识别码用户号码
IMSI号用户号码月租费
主叫号码用户类别附加功能费
被叫号码用户级别本地话费
通话开始时间用户信用度省内漫游费
通话时长用户姓名省际漫游费
基本通话费用户通信地址国际漫游费
基本通话附加费用户身份证号账单金额
长途费用户联系电话短信费
长途附加费用户邮编滞纳金金额
通话位置用户归属局总话费
漫游类型通信费支付方式付款方式
开户日期开户银行代码
用户状态用户银行账号
用户密码
开户行编码
信用卡卡号
用户银行账号
账号开户名
用户付款状态
2(粒度的确定:
设计DW中,最重要的步骤。
对于客户基本信息表采用单一的数据粒度即可。
对于客户的账务信息也采用单一的数据粒度。
但是要增加合适的时间段和合适的导出数据(按季度综合、按年度综合),对于客户的呼叫信息采用双重粒度:
对于近3~4个月的细节呼叫/计费数据,保留在DW中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数据腾出空间。
按月综合的数据
通话月份
主叫号码
通话总次数呼叫类型
通话总时长IMSI号
漫游类型通话次数主叫号码
漫游类型通话时长被叫号码
长途类型通话次数通话开始时间
长途类型通话时长通话时长
主叫通话次数基本通话费
主叫通话时长基本通话附加费
被叫通话次数长途费
被叫通话时长长途附加费
短信发送次数通话位置
短信接收次数漫游类型
最近3个月的细节数据
IMSI号
3个月之前的细主叫号码
节数据被叫号码
通话开始时间
通话时长磁带基本通话费设备基本通话附加费
长途费
长途附加费
通话位置
漫游类型3(定义DW的关系模式:
这个过程需要第二阶段形成的数据搜集报告进行记录系统的定义。
所谓记录系统的定义就是指明DW中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。
还需要建立一个数据字典,将问题中涉及的关键词语的含义、在字段命名中将采用什么关键字等信息记载在数据字典中。
三(OLAP模型设计
OLAP模型设计的思路是先分析问题中可能涉及的所有维度,针对每一个主题
确定需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星
型结构。
在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。
1(项目设计的维度分析
静态维度:
指客户详细资料维、状态维、年龄段维、品牌维等不经常
发生变化的纬度。
静态维度并不一定是完全不变的,只是相对动态维
度而言。
动态维度:
指经常会发生变化的维度,例如客户的呼叫地理维度、呼
叫时间维度、客户的费用层次纬度,这些维信息都将随着时间的变化
而变化。
目标维度:
需要通过数据挖掘分析的目标。
根据项目任务书中,我们
主要的目标有分析客户的价值、客户的流失概率、客户的挽留价值、
客户的信用度等。
这些维度在进行DM之前是空缺的,在进行DM之后,
利用DM的模型给这几个指标打分,然后在将这些数据补充回OLAP的
维表和事实表中,供数据展现使用。
2(各个主题的维度设计:
以收益分析主体的维度设计说明书为例:
模型名称:
收益分析
模块功能:
用于企业收益构成分析
:
profit_s对应的事实表
度量:
收益,每个用户账单记录产生的总费用金额
数据粒度:
在事实表中,记录每个用户每月的费用信息。
事实表存放5年之内的数据,5年以上的数据按时间(月)进行汇总后从事实表中导出。
相关的维度:
(1)客户详细资料维
(2)客户性别维
(3)客户年龄段维
(4)品牌维
(5)收益类别维
(6)通话类型维
(7)是否大客户维
(8)月总呼叫次数层次维
(9)平均呼叫时长层次维
(10)信用积分维
(11)信用度层次维
(12)消费层次维
(13)离网概率层次维
(14)挽留价值层次维
(15)价值层次维
(16)时间维
(17)客户类型维
(18)在网时间维
注释:
以上各维均与客户相关,用于分析不同客户群体对企业收益的贡献,
维的层次和元素与客户数量分析模型中相同。
收益分析主题的星型结构如下:
品牌维客户详细资料维
PKBrand_IDPKCust_ID收益事实表
Cust_IDTable4Sex_ID
AgeLevel_ID客户性别维Brand_ID
CallToallCountLevel_IDPKSex_ID
.....
.....月总呼叫次数层次维Profit
PKCallTotalCountLevel_ID客户年龄层次维
PKAgeLevel_ID
Table3
Table1
Table2Table5
第三部分系统装载、数据挖掘和界面设计一(数据装载/数据综合模块设计
数据装载模块负责从业务系统的数据表中提取、清洗数据以及转化格式变为DW中的细节表。
数据综合模块利用装载模块生成的细节表生成各个综合层次的数据表和导出表。
在进行数据装载模块设计时,需要注意以下几个问题:
定义良好的数据清洗规则:
数据质量的重要保证
注重代码的模块化和重用性、可维护性。
提高代码的处理效率
制定一个调度计划:
不同的装载程序需要在不同的时间运行,设计人员
需要根据实际系统的情况,确定一个合理的数据抽取计划,并在DW管理
工具中实施这个调度计划。
二(OLAP模型生成程序
OLAP模型生成模块利用DW中的数据构建维表和事实表(通常先实现一个主题)。
如果需要创建多维数据库,则需要将维表和事实表连接后生成一张详细的多维数据表,然后在这张多维数据表的基础上创建多维数据库。
OLAP模型生成/创建多维数据库模块数据装载模块数据综合模块
业务系统数据仓库
综合
表/导
出表细节表
综合
表/导细节表出表
综合
表/导细节表出表
三(数据挖掘宽表设计和生成
要进行DM,需要将所有能够收集的对分析有用的信息组织成一张非常“宽”的数据表,将这张表称为数据挖掘宽表。
1(首先确定同目标变量相关的数据:
通常需要向该方面的分析专家请教。
2(创建新变量:
即对细节数据要进行一定程度的综合,比原始细节数据更具
有现实意义。
3(准备训练集合与验证集合
数据质量的检验
选择合适的数据抽样方法
为目标变量附上初始值:
目的是为模型准备训练/验证数据集合,这
些初始值并不是最终的结果。
根据算法的需要,对宽表中的变量,特别是目标变量的形式进行转化:
常常将目标变量转化成布尔型变量。
例如将目标变量“客户流失概率”
转化为新的目标变量“是否流失”。
4(确定分析的次序:
由于目标变量之间存在相关性,因此需要确定分析的
次序。
客户信用度
客户价值客户流失概率
客户挽留价值
5(变量选择:
在准备好数据训练/验证集后,需要将同目标变量具有强相关
性的变量去除。
例如:
我们要分析客户价值,就需要将计算客户价值公
式中出现的变量去除,否则DM工具将直接在这些变量和目标变量间建立
关系,而不是我们所希望的通过划分客户是否高价值客户来发现高价值
客户在呼叫行为、消费行为、背景信息上的特征。
6(挖掘建模:
将训练/验证集合作为输入数据,利用挖掘工具/算法进行建
模。
模型通常是以一个数据处理程序的形式给出的。
使用模型程序对宽
表中的所有数据进行处理就得到了模型对目标变量的评定。
7(模型的维护和完善:
数据挖掘模型得建立不是一劳永逸得事,模型需要
每隔一段时间重新建立一次。
另外,随着数据仓库项目得不断发展,数
据仓库可以为数据挖掘提供更为完善的数据,因此还需要将新的数据内
容补充进数据挖掘宽表,以建立更好的模型。
四(创建多维数据库模块设计
通过DM后,需要将得到的目标维度数值填写进空缺的目标维表中,然后建立多维DB,供展现工具使用。
1(将星型结构中的维表和事实表进行连接,生成一张多维数据表
2(结合功能需求和最终数据展现的需要确定钻取的层次。
第四部分界面设计和项目总结
一(界面展现设计
二(系统的工作流程总结
总体工作流程
模块功能
模块名称Format表设计输入输出数据集维表设计程序和生成数据集存事实表设计放的位置MDDB初步设计
编程风格
项目进展
OLAP功能需求数据仓库设计数据服务程序数据服务系统数据校验设计分析模型设计校验模块设计编制程序联调联调项目整体数据清洗数据字典的编写文档规范规则设计
数据字典
的编写
数据挖掘数据挖掘程序生成宽表数据结果回写宽表设计编制程序调试挖掘模块
界面MDDB钻取数据展现数据展现
设计维度设计模块设计程序编制
重要步骤可并行步骤
三(系统的数据流程总结
(1)对原始数据进行数据抽取、清洗、整理后成为数据仓库中的各种综合度的数据表。
(2)在维度分析后得到维表并定义相应的格式表(FORMAT表)。
(3)从数据仓库中抽取出事实表和补充信息表。
(4)从数据仓库中抽取信息,整理成数据挖掘宽表,用于数据挖掘。
(5)表中的数据通过数据挖掘程序处理后生成的扩展数据(挖掘后的结果)要重新回写进事实表。
(6)利用维表和事实表连接后的多维数据表生成多维数据库(MDDB).
(7)使用MDDB和数据挖掘的结果进行数据展现。
四(系统的模块组成
OLAP层面数据仓库层面
维表/事实表多维数据库数据装载/综
生成模块生成模块合模块
展现层面
挖掘层面数据展现
模块
挖掘结果回写数据挖掘宽表
模块生成模块
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 讲解 数据仓库 数据 挖掘 案例 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)