通话数据分析 聚类分析.docx
- 文档编号:23662170
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:19
- 大小:251.17KB
通话数据分析 聚类分析.docx
《通话数据分析 聚类分析.docx》由会员分享,可在线阅读,更多相关《通话数据分析 聚类分析.docx(19页珍藏版)》请在冰豆网上搜索。
通话数据分析聚类分析
通话数据分析
摘要
本题考虑的问题是根据所给数据对用户进行分类,并参考分类情况推出一款新的通讯业务,且参考所给图表(基站分布图)考察其通讯设施建设是否合理。
关于问题一,虽然数据比较多但是每组数据之间存在着一定的区别,找出其不同处就能对图表中所给300个用户进行分类。
我们对原始数据进行相关处理后,使其更明朗化更利于观察。
从处理的表上我们可以看出主叫者所属基站总数有三十个,而所给图表中给出的数据为干三百个用户六月一号到十号中所打的6221个电话,若按照基站进行分类则会出现重复现象。
因此我们考虑其他的因素,大致可以将其分为两类:
一、按通话时间的长短。
其中又可以根据每个人的主叫和被叫的总时间分为两小类:
(1)每个人的主叫总时间,从处理后的表格可知,总时间在791-6980之间,则我们可以大致分为七类,每一类以1000为间断值。
(2)每个的被叫总时间,则与第一小类想类似。
二、根据用户在这十天内为主叫者还是被叫者时所打或者接电话的个数进行统计然后分类,在类型二中我们也应从主叫被叫两反面考虑。
对于问题二我们则需从用户和通讯公司双方进行考虑,对于用户来说他们希望拥有的是既实有又便宜的业务,而通讯公司则是希望赢利,因此就得看准市场针对不同的人群推广不同的业务,由图表及问题一的分类我们可以看出用户为主叫时的通话时长差距很大,因此对通话时间比较少的我们可以对其实行包月或者包年的政策,而对通话时间较多的我们可以实行超过一定的数量后按更优惠的政策进行计费(如每分钟减半等);从图表中我们还能考虑每个用户在每天中打电话的时间,对时间进行分段处理,考虑每个时间段推行相关的优惠政策;对于相互打电话叫频繁的还可以推出连网值,各个用户办理相关手续后相互打电话不要钱,但每月需交相应的费用。
关于问题三,我们知基站的建设是通信运营商投资的重要部分,所以基站建立的合理性尤为重要,基站的建设一般都是围绕覆盖面、通话质量、投资效益、建设难易、维护方便等要素进行,其合理性也应从这几方面进行考虑,由于我们假设基站建设的难易程度及维护难易和经费相等,而每个基站所容纳的通话个数为M,且在某个基站所分布的范围内若其主叫者电话个数超过了M,且在该区域不添加基站则会影响用户的通话质量,其基站建设的合理性就可以根据该区域内通话个数于M比较来进行判断,由于由常理知M的值不会超出平均值太远,结合图五则能判断出其基站的建设是基本合理的。
关键词:
用户类型业务最优化站点合理情况
一、问题重述
A题通话数据分析
通信技术的不断发展拉近了人与人之间的距离。
电话作为主要的通讯工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。
这个巨大的社交网络对当前的通讯设备和业务提出了更高的要求。
如何利用现有的通话记录数据进行,以便做出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。
附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。
请根据这些通话记录信息建立数学模型以对用户分类。
如果需要推出一款新的通信业务,如何选择部分用户作为首选推广人群。
说明你的理由,并撰写一份不超过两页的给公司经理的建议。
该地现有的通信设施(如基站等)建设情况是否合理。
如需改进,请给出合理的建议。
二、模型假设
一、假设每一个用户在每个基站内能进行正常的通话,
二、假设打电话时不足一分钟也按一分钟计算
三、假设该地基站的覆盖率百分之百
四、假设各个基站建设的难易程度相等
五、假设各个基站的维护难易和经费相等
六、假设图五中每一个格子表示一个区域
七、假设图五中每一个格子表示一个区域,每一个区域添加一个基站其能容纳通话个数会增加一倍
八、假设每个基站所容纳的通话个数为M
九、假设如果在某个基站所分布的范围内若其主叫者电话个数超过了M,且在该区域不添加基站则会影响用户的通话质量
三、问题分析
本问题是关于对所给数据对用户分类以及考虑通讯设施的建设是否合理的问题。
我们首先从对原始数据进行相关的处理,再从各个用户之间存在的差异性出发,建立相应的模型对用户进行分类。
对该模型的分类中,我们看出其涉及到用户是主叫还是被叫,通话时长,主叫者所属基站等因素。
其次我们利用题目所给的十天内三百个用户打电话的情况,根据其每个用户在这十天内通话总时长进行分类,而其中又分为改用户是被叫还是主叫还可以将其分为两小类;根据图表我们易知我们还考虑另一个因素:
主叫者所属基站,但是如直接根据基站对用户进行分类的话则会出现重复现象,因为用户为三百而基站个数为三十,且所给数据中是所有用户在十天中的通话记录,对图表稍作处理后可以看出每一个用户在这十天中所打电话或接电话的个数不是唯一的。
考虑到以上情况,我们则可以根据各个用户在这十天中为主叫者或被叫者时打电话或者接电话的个数建立一个模型对其进行分类。
再次,对于问题二则可根据第一题的分类考虑到用户与通讯公司双方的利益,寻求最优的新型业务,其中可从通话时长和其每天通话所属时间两方面进行考虑,制定相应的相应的优惠政策。
最后,关于问题三,基站的建设其合理性一般从围绕覆盖面、通话质量、投资效益、建设难易、维护方便等要素这几方面考虑,通过我们的假设我们只需从通话质量方面考虑,而每个基站所容纳的通话个数为M,且在某个基站所分布的范围内若其主叫者电话个数超过了M,且在该区域不添加基站则会影响用户的通话质量,其基站建设的合理性就可以根据该区域内通话个数于M比较来进行判断,由于由常理知M的值不会超出平均值太远,结合图五则能判断出其基站的建设是基本合理的。
四、符号约定
T:
主叫者十天内的通话时长;
X:
计算机模拟的随机数;
Y:
被叫者十天内的通话时长;
M:
每个基站所容纳的通话个数;
m,n:
所制定的套餐一中通话长度;
a:
通讯公司规定的本来通话每分钟所需收费;
b:
在通讯公司规定通话时间内的收费;
a1,a2,a3:
制定的套餐一中收费标准;
b1,b2:
制定的套餐二中收费标准;
x:
制定的套餐三中通讯公司制定的通话时长;
c,c1,c2:
制定的套餐一中收费标准
五、模型的建立与求解
5.1问题一
由于对用户分类对通信公司做出合理的决策,改善通信设施、拓展新的通信业务有很大关系,而用户可分为主叫者和被叫者两大人群,这两种人群中又可以产生两种不同的业务,当然这两种业务方向又可以有不同的业务,根据主叫者和被叫者通话时长的不同,不同通话时长区间,拥有的用户数量不同,可以采取不同的收费标准,这样可以更优化公司的利润,当然也可以从打电话与接电话的个数方面进行分类,从这一方面,同样可以在收费标准有所建树的。
根据所给的相关通话记录信息找出各个用户之间存在的不同之处,主要可以从通话时长和接电话的个数这两个方面进行考虑对用户进行分类。
类型一:
本类型主要是从通话时长进行考虑,在excel中我们可以对原始数据进行一定的处理,求出每一个用户的通话总时长,由于其分布范围较广,我们可以将其分为不同的阶段,然后对相关人数进行计数。
众所周知,通话不是单方面的,对此我们还应该从用户是主叫还是被叫两方面进行考虑,因此我们还将其分为两小类:
(1)按主叫者十天内的通话时长分
由经处理后的图表可以主叫者的总通话时间在232到6980之间,则我们可以将其分为以下七个不同区间:
0≤T≤1000,1001≤T≤2000,2001≤T≤3000,3001≤T≤4000,4001≤T≤5000,5001≤T≤6000,6001≤T≤7000;并对相关数据进行统计如图表一所示:
通话时长
0-1000
1001-2000
2001-3000
3001-4000
4001-5000
5001-6000
6001-7000
用户个数
3
20
56
91
76
42
12
表一
其相关条形图如图一:
其横纵坐标分别表示通话总时长(单位:
秒)用户个数(单位:
个)
图一
由于以上的表格和柱状图只能显示各个区间的人数,为了能够更好的研究用户的通话时长,而且鉴于所在的区间比较紧凑,采用计算机随机数模拟,取区间的平均数代替整个区间,效果会很明显的,将通话时长在各个区间的概率进行累加便得到了0-1的一组模拟数,因为在0-1中各个随机数的几率是一样的,再通过通话时长-随机数表便得到了一条散点图。
通话时长
概率
500
0.01
1500
0.067
2500
0.187
3500
0.303
4500
0.253
5500
0.14
6500
0.04
通话时长-随机数表:
通话时长
随机数
500
0.01
1500
0.077
2500
0.264
3500
0.567
4500
0.82
5500
0.96
6500
1
从上图可以看出该图符合正态分布:
通话时长-随机数散点图:
由于区间比较紧凑,散点图只能够大概的看出通话时长与随机数的关系,为更好的研究二者的关系,利用线性样条的方法,得出各个区间的通话时长与随机数的函数,再用其反函数(称为逆样条函数)得出随机数与通话时长的函数,这样不仅很容易进行模拟,还可以通过模拟得到的随机数代入上式便可以得到相应的通话时长。
随机数区间
通话时长
逆样条函数
0<=X<=0.01
500
t=50000x
0.01<=X<=0.077
1500
t=15000x+485
0.077<=X<=0.264
2500
t=5348x+1088
0.264<=X<=0.567
3500
t=3300x-1627
0.567<=X<=0.82
4500
t=3953x-1259
0.82<=X<=0.96
5500
t=7143x-1357
0.96<=X<=1
6500
t=25000x-18500
进行模拟时便可用得到的模拟数代入,可以直接得到通话时长。
(2)按被叫者十天内的通话时长分
我们易知被叫者在这十天内通话总时长在141到40867之间,将其分成以下不同区间:
0≤Y≤2000,2001≤Y≤4000,Y>4000;将被叫者在这些区间的人数统计出来绘制成表格如表二:
通话总时长
0-2000
2001-4000
>4000
被叫者个数
136
82
82
表二
为了使表格的数据很直观,按表格的数据绘制成柱状图,如图二:
图二中横纵坐标分别表示通话总时长(单位:
秒)被叫人的人数(单位:
个)
图二
由图表可知被叫者在区间0-2000的人数所占的比例很大,而2001-4000的人数和大于4000的人数一样多,这就意味着主叫者的通话时长主要集中于0-4000,我们如果想对被叫也制定一个收费标准,就可以从这一方面着手,当然,也可以从通话时长大于4000的主叫者作为业务人群进行考虑。
类型二、
对数据分析后可知,各个用户在这十天中所打电话和接电话的个数是不同的,本类型就是从这方面着手对所统计的三百个用户进行分类,其也可从用户是主叫还是被叫两方面进行分析,将其再分为两小类。
(1)根据主叫者打电话的个数,可以将用户分为四类,具体如表三所示:
打电话个数
1-10
11-20
21-30
31-40
主叫者的人数
17
132
124
27
表三
其条形图如图三所示:
图三
从上图表可以直观的看出主叫者十天内的通话个数集中于11-20和21-30两个区间,若从通讯公司角度出发,可从这一方面下手,例如可将用户打电话个数列入收费标准的一个指标,而不足和超出部分按另一收费标准,当然这种收费标准存在其局限性。
(2)根据被叫者接电话的个数,同样可以将用户分成五类:
没有被叫,接电话个数在1-30之间,接电话个数在31-60之间,个数在61-90之间,个数大于90,具体如表四:
接电话个数
没有被叫
1-30
31-60
61-90
>90
被叫者人数
2
236
10
6
2
表四
其相应条形图如下:
由上图可知被叫者的人数主要集中于接电话个数1-30这个区间,其他区间的人数相对比较少,当然也可认为随接电话个数在增加但人数并不是与其同步,接电话的个数对于通信公司的收费标准不会有太大的价值,因为接电话不决定于被叫者,只决定于主叫者。
因此从通讯公司盈利的方面来讲应不从这方面下手。
5.2问题二的建议书
本研究小组通过对通话数据的分析,建立了适当的数学模型对用户进行相应的分类,发现不同用户在这十天中所打电话有着不同的通话时间长度,对这些数据进行整理后,统计出的每个电话的时长与所打电话个数如下表所示:
每个电话的通话时长
0-100
101-200
201-300
301-400
电话个数
313
3654
2192
60
其条形分布图如下图所示:
其纵坐标表示电话的个数(其单位为个),横坐标表示时间段(其单位为秒)
每个电话的通话时间——电话个数条形图
由上图易看出每个电话通话时间在101秒-300秒之间的分布比较密集,而通话时间在0秒-100秒和301秒-400秒之间的分布较少,由上知则大部分人每个电话的时间在五分钟以内。
由原始数据我们可以看出,各个电话是在每天中的不同时间所打出的,相关条形图如下所示:
其中横坐标表示一天中的各个时间(单位为小时),纵坐标表示在所给的十天中该时段内通话的总时间(单位为秒)
一天中各个时间——所给十天内在这段时间通话总时长线形图
由上图易看出每天从早上八点到二十四点这段期间通话总时间较多,则表示这段时间打电话的次数较多;反而零点到早上八点之间打通话的总时间较少,因此这段时间电话的打出较少。
虽然每个用户在十天内产生的通话时间包括主叫时间和被叫时间,但是由于被叫通讯公司是不进行收费的,因此我们在考虑推出新业务时只需从主叫方面考虑,于是我们可以想,可以在这些主叫频率高的人群中推行一项新业务。
对于这些人群,我们可以考虑,把收费模式定为三个阶段。
第一是普通阶段,即通话s分钟以下的按一个收费标准计费,对通话时间超过u分钟但不超过L分钟为一个较为优惠的收费标准,而通话时间超过L分钟的后按更优惠的政策进行计费(如每分钟减半等)。
这种情况下,一方面,我们可以达到鼓励用户长时间通话的目的,另一方面,这样的一些优惠措施推出后,相信很多通话时间长的用户将选择我们的产品,这也是一个进一步扩大市场的机会。
与此同时,我们还可以从每天每段时间的通话总时间方面进行考虑可以将每天分为几个不同的阶段,对不同的阶段实行不同的收费标准,另外对其他方面相配合的进行改进从而吸引这些用户达到扩大市场的目的。
根据上面的分析我们制定新业务如下:
对各个套餐的相应分析
对于套餐一,我们是从通话时长反面考虑的。
由于要从用户和通讯公司双方利益考虑,假设在通话时间小于n时对用户来说是没有益处的,当通话时间大于n时,假设通话时间为t1要想用户较优惠则我们能得出以下式子:
a*t1≥a2*n+a3(t1-n)+z1
通过求解我们得:
t1≥
由上面的计算可知当通话时间大于t1时对用户来说则是较为省钱的,而小于t1时则是通讯公司盈利。
关于套餐二,我们从上面不难得出在每天中不同的时间段通话频率不同,因此我们则是从这个方面进行考虑,假设一个用户在8:
00——20:
00通话时间t2在20:
00——8:
00通话时间为t3
a*t2≥z2+b1*t2
通过对上式求解得:
a*t3≥z2+b2*t3
解得:
t3≥
通过上面的计算我们可以清楚的看出,当一个用户在8:
00——20:
00通话时间大于t2,在20:
00——8:
00这个时段的通话时长大于t3时则他选择套餐二较为实惠。
而套餐三我们则是从通话时长和在每天中不同的时间段通话频率两方面进行考虑的,与套餐二的分析相似假设一个用户在8:
00——20:
00通话时间t4在20:
00——8:
00通话时间为t5
a*t4≥b3+c(t4-x)
上式解得:
t4≤
由于要使其能优惠则t4≥
a*t5≥b3+c1*x+c2(t5-x)
通过求解知:
t5≥
经过上面的分析我们可以看出若用户在8:
00——20:
00的通话时间在
与
之间,而20:
00——8:
00之间的通话时间大于t5时他选择套餐三则能省钱。
由于用户在对套餐的选择方面带有一定主观因素,可能会凭第一感觉不会考虑到自身的情况;在现实生活中有一类情况我们也不能忽略,有些人在选取相关套餐后,并不一定能达到相关的通话时间,因此通讯公司则可以凭这几点从中获取利润。
5.3问题三
基站即公用移动通信基站是无线电台站的一种形式,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。
通信基站的建设是通信运营商投资的重要部分,基站的建设一般都是围绕覆盖面、通话质量、投资效益、建设难易、维护方便等要素进行。
因此其建设的合理性主要也应从这几方面进行考虑,由于我们已经假设基站的覆盖率已经达到了百分之百,且各个基站的建设难易和维护方面都是相同的,因此我们只需从基站的投资效益和其覆盖范围内通话质量这两方面进行考虑。
通过统计各个基站在所调查的三百个用户在十天内所打电话的总个数的线如图四所示:
图四
通过上图我们可以看出在基站15,22,11,28,30,29这几个基站的主叫电话个数较多,而在其他基站相对较少,由于用户打电话个数会影响通话质量,其合理性方面我们就因从打电话个数较多的基站考虑。
主叫者所所属基站在主叫者电话个数的各个数段的分布如表五所示:
主叫电话个数
主叫者所属基站
1-100
2,3,4,5,7,8,14,19,26
101-200
6,9,10,12,17,18,20,21,23,24,25,27
201-300
1,13,16
301-400
15
401-500
22
501-600
>600
11,28,30,29
表五
题目所给各个基站在该地去的分布图如图五所示:
图五
由原始数据可知所调查的三百个用户在这十天内打电话的总个数为6221而基站数为30,可以算出每个基站平均电话个数为208,通过上表并结合图四知1,13,16,15,22,11,28,30,29这几个基站主叫者电话个数超出了平均值,通过我们假设如果在某个基站所分布的范围内若其主叫者电话个数超过了最大值M,且在该区域若不添加基站则会影响用户的通话质量,13,15,16,22这几个基站主叫者电话个数虽然超出了平均值,但若没超出M其建设认为合理的,若超过则需增加基站;结合图五知基站1,30和11,28,29都是建在一个区域内,而每一个区域内添加一个基站,其每个基站所能承受的通话个数增加一倍,查原表知1和30个基站中通话总数为863,而由假设知他们所能承受的个数为4M,若863>4M时则其通话质量有影响,反之怎表示其建设较为合理。
11,29,28所在的区域可用相似的方法进行判断。
由于由常理知M的值不会超出平均值太远,结合图五则能判断出其基站的建设是基本合理的。
五、模型的评价与应用
模型的评价:
对于这次的模型,我们对数据进行分析后将这些数据分为了很多不同的类别。
并绘出看图形,直观的表达了各种人群的通话数据。
这样的分类可以使得公司对不同的客户人群有着深入的了解,便于推出不同的优惠措施,从而达到在最大的利润下吸引更多的客户。
但是我们的模型和也有着不完善的地方,一些分类存在着小误差,图形方面也有欠缺。
模型的推广:
模型的基础建立在30个人在10天内的通话数据,这样的数据表现了客户的通话信息。
我们可以认为在这地区的所有用户的通话信息和这30人基本相似,随然具有一定的局限性,但这个模型可以适应于其他分类,所提出新业务在一定的市场上可以进行应用。
六、参考文献
[1]姜启源,《数学模型》,北京:
高等教育出版社,2005.
[2]袁新生,《LINGO和Excel在数学建模中的应用》,北京:
科学出版社,2007.
[3]谢季坚,《模糊数学方法及其应用》,华中科技大学出版社,2000.
[4]宋晓秋,《模糊数学原理与方法》第二版,中国矿业大学出版社,2004.
[5]中国通信统计报告,heep:
//,2007、9、23
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通话数据分析 聚类分析 通话 数据 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)