案例分析---数据挖掘在通信业中的应用PPT格式课件下载.ppt
- 文档编号:13367063
- 上传时间:2022-10-10
- 格式:PPT
- 页数:99
- 大小:2.21MB
案例分析---数据挖掘在通信业中的应用PPT格式课件下载.ppt
《案例分析---数据挖掘在通信业中的应用PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《案例分析---数据挖掘在通信业中的应用PPT格式课件下载.ppt(99页珍藏版)》请在冰豆网上搜索。
数据处理根据收集到的实际数据进行具体分析和处理,主要包括数据清理、数据转换、特征构造以及数据调整等步骤。
通过对历史数据进行分析并建立模型,对未来客户消费情况进行预测,这就要求有正确合理的历史数据。
因此,数据集中的特征需要挖掘出能够体现客户消费价值及消费倾向的特征。
在建立模型时,并不需要保留太多的特征,需挑选出能够充分体现客户价值及客户流失倾向的特征,即需要进行特征选择。
客户流失分析流程(续),建立模型利用合适的数据挖掘算法对整理好的数据进行聚类细分,并建立流失预测模型。
结果优化根据企业实际情况调整预测模型,优化预测结果。
制定策略依据模型分析得到的结果制定相应的客户保持策略。
电信客户流失原因分类,从世界各地的电信运营商运营情况来看,电信客户流失主要具有以下几个方面的性质:
(1)客户流失问题具有普遍性;
(2)客户流失不可避免;
(3)客户流失代价昂贵;
(4)客户流失难以控制。
电信客户流失原因分类(续),电信客户流失原因分类(续),从电信客户流失原因分类图上可以看出,最易于辨别的流失者类型是非自愿流失者。
非自愿客户流失已经成为某些运营商最大的一种流失类别。
这一类别包括由于欺诈、不付款和使用不足而流失的客户,一般来说这类用户存在的比例不大。
处理非自愿客户流失的一个有利之处是,运营商在如何管理这种客户流失问题上,具有很大的回旋余地,有许多手段可以处理非自愿客户流失带来的风险。
例如欺诈、信用以及使用不足,都是可以提前预料的问题。
通过加强对客户的筛选,可以减少此类情况的发生。
虽然非自愿客户流失是相当大一部分客户流失问题的根源。
但是,当人们想到电信运营商的客户流失的时候,通常想到的还是自愿客户流失。
电信客户流失原因分类(续),自愿客户流失出现在客户开始终止服务合同之际。
根据不同市场、不同的国家、不同的文化中各有不同,但大多数调查发现,自愿客户流失所声称的主要原因包括,电信客户流失原因分类(续),电信客户流失原因分类(续),调查显示存在许多不同的原因,但是,价格、质量、覆盖范围和客户服务这四个原因在所有客户流失原因列表中总是名列前茅。
从客户流失的性质来看,又可以把上述具体客户流失原因又可以总结为以下几类:
自然流失、恶意流失、竞争流失及过失流失,电信客户流失原因分类(续),数据准备,为了建立客户流失预测模型,必须收集大量的客户信息资源数据,同时需要对其进行数据预处理,得到构建模型所需的格式。
因此,在这个阶段需要对模型所需的历史数据(训练数据和测试数据)进行分析和处理,以便能充分挖掘出客户的关键行为特征。
数据准备(续),样本选择和数据描述以某地区电信行业的客户业务数据作为实验数据(包括训练样本集和测试样本集)。
该样本数据集中总共包含了176921条(正常客户记录156885条+流失客户记录20036条)记录,每条记录由18个客户基本特征和108个客户行为特征以及一个类别特征来刻画。
样本数据集中主要包含三类特征数据:
客户基本特征:
主要客户资料数据客户基本特征数据是客户的静态数据(如表7-1),相对来说是比较稳定的,但由于这些数据在收集时会包含大量的缺失值、不一致的值甚至是错误的数据。
所以需要进行大量的数据转换和清理工作。
数据准备(续),客户行为特征:
主要是客户的消费行为特征数据每条记录包含了客户在一个年度内的消费行为数据,包括一年中每个月的总费用,月租费用、本地通话费、传统国内通话费用、传统国际通话费用、传统港澳台通话费用、IP国内通话费用、IP国际通话费用以及IP港澳台通话费用等9个基本消费行为特征。
所以该样本数据集中共包含108个(129=108)消费行为特征。
详细内容见表7-2。
数据准备(续),数据准备(续),数据准备(续),客户类别特征实验样本数据集中包含一个能够判定类别信息的类别特征,根据类别信息可知道每个样本的基本状态(如表7-3)。
在样本数据集中,客户类别特征(Class)由0和1来表示,0表示该客户已经流失,1则表示该客户是正常客户。
数据准备(续),数据预处理数据预处理是数据建模前的准备工作。
数据预处理的效果会直接影响到模型的性能及分类预测的效果。
一方面,通过对数据格式和内容的调整,可以使建立的模型更加准确、简单且便于理解;
另一方面,可以降低学习算法的时间和空间复杂度。
数据预处理主要包括数据清洗、数据转换、特征构造和特征选择等几个过程。
数据准备(续),数据清洗数据清洗的目的是补全数据、处理缺失值、除去噪声以及改正不协调的数据。
例如在客户样本数据集中有些客户的套餐名称、套餐生效时间、套餐失效时间及套餐竣工时间等数据为空。
在处理含有缺失值的特征时,如果有些特征的有效值少于总记录数据的1/5,则可删除此类特征;
如果某记录中存在大量的空缺值,而这些空缺值难以以正常方法给予补全,则可以去除此类记录。
数据准备(续),数据变换数据转换主要包括构造新的衍生特征和对连续型数据进行规范化。
在实验数据集中除了有表示客户类别信息的特征外(也是用其它方法赋值的),没有直接体现客户价值和客户流失倾向的特征。
在本实验数据集中,消费行为特征中只包含了12个月的消费行为(月总费用,月租费用、本地通话费、传统国内通话费用、传统国际通话费用、传统港澳台通话费用、IP国内通话费用、IP国际通话费用以及IP港澳台通话费用),这几个特征不能充分体现客户在季度和年度的消费情况。
根据需要可以构造以下特征:
季度总费用:
将实验数据中的12个月平均分成四份,每三个月为一个季度。
数据准备(续),数据准备(续),季度消费比率的大小可以从客观上反映客户的消费行为趋势。
根据已知特征还可构造两个非常重要的特征:
ForthQ/total_Rate为第四季度占总年度消费的百分比,该特征也能从一定程度上反映客户的消费近况。
其计算如下:
根据客户在一个年度内的消费情况可构造未消费月份数Non-fee,此特征可反映样本客户消费情况及流失情况。
数据准备(续),同时为了体现不同类别客户群体之间的消费差别,我们还需要构造8个不同的消费行为特征,分别为年度月租总费用、年度本地通话总费用、年度传统国内通话总费用、年度传统国际通话总费用、年度传统港澳台通话总费用、年度IP国内通话总费用、年度IP国际通话总费用、年度IP港澳台通总话费用。
其计算方法比较简单,就是将12个月份的相关费用进行累加。
数据准备(续),通过构造新特征,该样本数据集中总共包含了126个消费行为特征(108(原始行为特征)+4(季度总费用)+1(年度总费用)+3(季度消费比率)+1(Non-fee)+8(消费行为总费用)+1(ForthQ/total_Rate)。
在样本数据集中我们可以根据客户的年度总费用及其它消费行为的总费用来判断客户的价值,以季度总消费、季度消费比率及未消费月份数来判断客户的潜在价值,采用消费行为总费用识别不同客户群体的消费倾向。
数据准备(续),考虑到要对数据进行聚类分析,而聚类算法中要求对各连续型数据进行规范化,使得各连续数据的取值范围在0,1之内。
因此,需要对所有连续特征数据进行规范化,规范化的采用最大最小值规范化方法。
具体方法如下:
假设S和S,分别表示某有限值域的原值和新值,max_s和min_s分别在该值域中数据的最大值和最小值。
那么在该值域范围内各数据的规范化表达式可表示为:
数据准备(续),特征选择经过数据清理和数据变换后,接下来就要进行特征选择。
特征选择的效果会直接影响到分类预测模型的性能。
通过特征选择可以减少样本的维度,大大减少计算量,降低时间和空间复杂度,简化学习模型。
例如该样本数据集中电话号码和客户编号的相关性很强,我们可以认为它们之间存在冗余性,则可删除与目标特征相关性小的特征,即电话号码字段被删除掉。
我们主要采用第三章介绍的基于混合特征相关性的特征选择方法进行特征选择。
通过特征选择,服务编号、行业大类ID、行业小类ID、电话号码、竣工时间、拆机时间、最后一个月的IP港澳台通话费用、最后一个月的IP国际通话费用、最后一个月的传统港澳台通话费用、倒数第二个月的IP港澳台通话费用,倒数第二个月的IP国际通话费用、倒数第二个月的传统港澳台通话费用以及一年之中的月租费等12个特征被删除。
数据准备(续),经过数据预处理,实验数据集中最后留下的客户基本特征和行为特征分别为5个(客户编号、客户类别、用户类型、渠道、产品)和108个(90个行为特征和18个构造特征)。
最后该数据集中保留下来的特征总数为113个。
为了保证实验数据的分布能够很好地与现实情况相吻合,我们定义浓度这个概念来解释。
其目的就是要使得训练出来的预测模型能尽可能的抓住流失客户的特征。
所谓浓度就是训练集中流失客户与正常客户的比例。
如果训练集中的正常客户与流失客户的比例为1:
1,那么就说该训练集的浓度为1:
1。
通过观察我们会注意到,数据分布不平衡现象广泛存在于现实生活中。
一般地,对于绝大多数电信企业来说,客户流失率都比较低。
也就是说正常客户与流失客户的分布是不平衡的,每月流失的客户总是少数,而正常客户占绝大多数。
数据准备(续),经过上述分析,我们需要调整正常和流失数据的分布比例。
据电信部门统计,当正常流失率不超过20%时,客户流失特征不是很明显。
因此,我们在实验中,取实验训练集的浓度为4:
1(正常客户:
流失客户)。
经过数据预处理,有效客户流失样本记录数为15326条,结合预先定义的训练集浓度(4:
1),我们在样本集随机选取61304条正常样本与流失样本共同组合成训练数据集。
所以用于实验数据集的样本总记录数为76630条。
客户聚类分析,在讨论客户流失问题之前,我们首先要对客户进行细分。
在电信市场业务中,清楚地了解客户类别是对每个客户群采取有针对性措施的基础。
对电信业而言,不同的用户群在流失前后表现出不同的消费特征,这就需要将不同的群体分别开来对待,针对不同的用户群体建立分类预测模型,使得预测分析达到更好的效果。
客户聚类是根据一个或多个客户特征组合把所有客户划分成不同的群体,相同群体的客户间具有最大的行为相似性,不同群体的客户间具有最大的行为差异性。
通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,使电信企业对客户总体构成有准确的认识,同时对客户的服务和营销具有针对性。
对客户聚类可以达到如下目标:
了解客户群体的消费特征,了解客户的总体构成;
了解各种客户价值的客户群体特征;
了解流失客户的客户群体特征。
客户聚类分析(续),根据常识我们知道,任何企业的客户按不同的标准可以划分为不同的类型。
同样在电信行业中也存在着不同类型的客户群体,签于此,需要对客户进行聚类,可以得到更小、更精细的客户群体。
在对客户进行聚类后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 案例 分析 数据 挖掘 通信 中的 应用