通话数据分析 张.docx
- 文档编号:25980433
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:19
- 大小:239.25KB
通话数据分析 张.docx
《通话数据分析 张.docx》由会员分享,可在线阅读,更多相关《通话数据分析 张.docx(19页珍藏版)》请在冰豆网上搜索。
通话数据分析张
通话数据分析
──魏国俊蔡斌刘威
摘要
本题的主要问题就是针对所提供的数据对通讯用户进行一个合理的分类,然后依据分类选择合理的用户进行新业务的推广,最后对比基站的建设或分布是否符合实际情况给出合理的意见。
针对问题1,模型1的建立主要以主叫者十天内的通话时长汇总然后以时间段对用户分类,进行残差分析(衡量拟合优度的标准,做法是选择参数c使得拟合模型与实际观测值在各点的残差(或离差)ek=yk-f(xk,c)的加权平方和达到最小)此时所求曲线称作在加权最小二乘意义下对数据的拟合曲线即为通话总时间段与主叫者总数之间的函数表达式:
针对问题2,采取文字表述加数据图表说明,把抽象具体化,例举了具体的数字对方案有一个很好的实践。
先从整体处理各个基站的占总的通话时长的比例,然后对局部取繁忙用户进行最优推广,最终达到最优推广效果。
针对问题3,对基站的建设是否合理,我们依据问题1、2的处理方法首先以基站对总的通话时长求和,然后取平均值,对基站业务的多少进行分类比较,最终对基站是否合理做出评价。
论文的末尾给出了模型优缺点的分析和评价以及模型的拓展,对本次建模有一个系统的论断。
关键词:
数据拟合残差分析
1、问题重述
随着科学的不断发展,通信技术的不断发展拉近了人与人之间的距离,给人们的生活但来了很多便捷。
电话作为主要的通信工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。
这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。
如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。
附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题.
1、请根据这些通信记录信息建立数学模型以对用户分类。
2、如果需要推出一款新的通信业务,如何合理选择部分用户作为首选推广人群。
说明你的理由,并撰写一份不超过两页的给公司经理的建议。
3、该地现有的通信设施(如基站等)建设情况是否合理。
如需改进,请给出合理的建议。
2、问题分析
对于问题1考虑有主叫者、被叫者、主叫时间、通话时长、主叫者所属基站这些数据,我们采取常规做法,提取十天内主叫者总的通话时长,划分14个区段,得出不同区段的主叫总人数。
问题2考虑到怎么合理的划出一部分人对新业务进行推广,对已有的数据以基站对应的通话时长求和,然后算出每个基站通话时长占总时长的百分比,策划一个合理的试用名额分配表,然后针对各地具体采取推广方案。
问题3首先以基站对总的通话时长求和,然后取平均值,再以通话时间与平均时间的比值进行比较,最后通过与基站分布图对比,看看各个基站是否分布合理。
3、模型假设
1、假设问题2中的新业务是针对常用用户优惠,并需快速在这个地区打开消费市场,获得最大效益。
2、假设所提供的2009年6月某地300个用户10天内的通话记录能比较系统的代表此地区一年内业务情况。
3、假设各个基站的设备等都一样。
4、假设人口流动对问题影响可以忽略。
5、假设选择的300个用户的数据都是按比例随机从广大用户中选出来的。
4、符号约定
X:
十天内通话总时长所划分的1-14个区间段(用xi表示);
Y:
在区间段xi内主叫者总人数;
Z:
通话时间与平均时间的比值;
定义:
1-4段称做普通用户;
4-10段称做常用用户;
11-14段称做繁忙用户;
高负荷站:
通话时间与平均时间的比值Z≥1.5的基站;
中负荷站:
通话时间与平均时间的比值0.5<Z<1.5
低负荷站:
通话时间与平均时间的比值Z≤0.5的基站
5、对问题一的建模
模型的建立与求解:
根据通信公司公布的2009年6月份某地300个用户10天内的通话记录表对数据进行初步处理。
以主叫者十天内的通话时间总和汇总后得到附录11.1.1的数据表一。
根据数据表一处理求和得到总区间是1~7000(长为500)的14组数据如下表:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Y
1
3
4
16
30
26
50
41
46
30
24
17
6
6
此表即是对用户的分类:
我们得到普通用户有24人,常用用户有123人,繁忙用户有77人。
在MATLAB中利用如下命令,分别对数据进行2阶,4阶,6阶的拟合,作图,并进行残差分析比较得到如下六次多项式:
此时的残差是9.5013
然后绘的图形如下:
具体的比较图形见附录11
6、对问题二的建模
建议书
我们组根据数据表与基站分布图进行了对比假设此业务需在这个地区针对常用用户快速推广,具体方案如下:
首先,以各个基站为点,计算出300个人这十天内的通话时长总和,然后算出比例,这就很明显的得出要快速地推广业务的话,可以依据如下比例表进行名额的初步分配。
为了具体说明情况我们以100个名额为例给出一个分配例子,分配图置下:
Ni表示第i个基站
Ti表示所有主叫者用户通过第i个基站通话所产生的时间
T总通话时间
WiTi与T的比值
Ni
Ti
T
Wi
Pi
1
44101
1132716
3.89%
4
2
9606
0.85%
1
3
3884
0.34%
0
4
16700
1.47%
1
5
1581
0.14%
0
6
17716
1.56%
2
7
12126
1.07%
1
8
13080
1.15%
1
9
26969
2.38%
2
10
24154
2.13%
2
11
119658
10.56%
11
12
18884
1.67%
2
13
45385
4.01%
4
14
10557
0.93%
1
15
68799
6.07%
6
16
45708
4.04%
4
17
24183
2.13%
2
18
18222
1.61%
2
19
17035
1.50%
2
20
27919
2.46%
2
21
25502
2.25%
2
22
82087
7.25%
7
23
23135
2.04%
2
24
21553
1.90%
2
25
25201
2.22%
2
26
5517
0.49%
0
27
17890
1.58%
2
28
110461
9.75%
10
29
139906
12.39%
13
30
115197
10.17%
10
Pi按照惯例对第i个基站所分配的人数
然后,根据如上分析,我们给的建议就是根据名额分配方案,可以得出各个基站的具体试用推广数。
既然要取的最快的推广速度以及获利最优,那么就可以以一个基站为例,对一段时间内繁忙用户排名取前。
这样就有效、快速的对新业务进行了推广。
最后,经过一段时间的推广后然后根据各地反馈的信息对此方案进行验证。
7、对问题三的建模
模型的建立与求解:
首先以基站对总的通话时长求和,然后取平均值,再以通话时间与平均时间的比值进行分段得到如下表:
低负荷基站的Z比值表
基站
通话时长
Z比值
5
1581
0.041873
3
3884
0.102868
26
5517
0.146118
2
9606
0.254415
14
10557
0.279602
7
12126
0.321157
8
13080
0.346424
4
16700
0.4423
19
17035
0.451172
27
17890
0.473817
18
18222
0.48261
中负荷基站的Z比值表
基站
通话时长
Z比值
12
18884
0.500143
24
21553
0.570832
23
23135
0.612731
10
24154
0.639719
17
24183
0.640487
25
25201
0.667449
21
25502
0.675421
9
26969
0.714274
20
27919
0.739435
1
44101
1.168016
13
45385
1.202022
16
45708
1.210577
高负荷基站Z比值表
基站
通话时长
Z比值
15
68799
1.822143
22
82087
2.174075
28
110461
2.925561
30
115197
3.050994
6
117716
3.11771
11
119658
3.169144
29
139906
3.705412
由上表可以的出低负荷站有11个;中负荷站有12个;高负荷站有7个。
对照下图:
由于根据生活经验,基站繁忙时期有但是很少,如年三十晚上,于是我们忽略这个,只对平时进行分析。
我们规定如果有三个或三个以上的高(低)负荷基站相邻我们就认为不合理加建(拆除)一个或几个使之变为三以下高(低)负荷相邻,那么由图可知,在11、28、29站附近加建一个基站,在2、3、4、5站附近拆除一个基站。
8、模型优缺点分析
对问题分析叫明朗清晰,能对给出的数据做出合理的筛选与整合。
对于问题1先进行了一个小范围的分类,然后再粗划,将客户分为普通用户、常用用户、繁忙用户,对这个地方的用户做出了一个合理的分类,通话总时间段与主叫者总数之间的拟合函数有一定的推广作用。
对于问题2给出了一个具体方案,对解决新业务推广问题有一个很好的借鉴作用。
对于问题3依据具体数据对基站的分布进行评价,给出了我们的建议。
但是总的来说我们的模型还有一定的缺陷,比如第2问我们只给出了一个大概。
而且实践性不强,不能很好的依据市场突变做出对应的简答。
9、模型扩展
对于模型1我们根据建立的模型可以对更为广泛的地区通讯人群做一个初步的估计,根据划分的去间即可对属于此区间的人数做一个很好的预测,从而为业务决策提供依据。
10、参考文献
[1]周义仓赫孝良《数学建模实验》西安交通大学出版社(1999年10月)
11、附录
11.1.1数据表一:
主叫者
通话时长
44汇总
2838
88汇总
5824
1汇总
3929
45汇总
4351
89汇总
2809
2汇总
2127
46汇总
4487
90汇总
4289
3汇总
2459
47汇总
5409
91汇总
1548
4汇总
2615
48汇总
3319
92汇总
3225
5汇总
2489
49汇总
4069
93汇总
3193
6汇总
3059
50汇总
4095
94汇总
2145
7汇总
6098
51汇总
4128
95汇总
3351
8汇总
3728
52汇总
2287
96汇总
2610
9汇总
5983
53汇总
5620
97汇总
2724
10汇总
3479
54汇总
4306
98汇总
2399
11汇总
3345
55汇总
4657
99汇总
3171
12汇总
3730
56汇总
3390
100汇总
3790
13汇总
4290
57汇总
3428
101汇总
2560
14汇总
3917
58汇总
6980
102汇总
3437
15汇总
5022
59汇总
6757
103汇总
3959
16汇总
3971
60汇总
2225
104汇总
6796
17汇总
2662
61汇总
3270
105汇总
1607
18汇总
3981
62汇总
1974
106汇总
2569
19汇总
3978
63汇总
4425
107汇总
3058
20汇总
5598
64汇总
2962
108汇总
5873
21汇总
4572
65汇总
3834
109汇总
1750
22汇总
3131
66汇总
6740
110汇总
2373
23汇总
3845
67汇总
5824
111汇总
5452
24汇总
3684
68汇总
2921
112汇总
1596
25汇总
3221
69汇总
888
113汇总
2007
26汇总
3286
70汇总
4150
114汇总
3479
27汇总
4454
71汇总
3351
115汇总
2944
28汇总
4107
72汇总
4930
116汇总
4631
29汇总
5590
73汇总
5786
117汇总
3483
30汇总
2159
74汇总
4637
118汇总
4828
31汇总
2373
75汇总
4883
119汇总
5011
32汇总
2880
76汇总
4936
120汇总
3205
33汇总
1863
77汇总
4591
121汇总
4922
34汇总
2892
78汇总
1988
122汇总
5198
35汇总
3767
79汇总
2239
123汇总
3142
36汇总
4631
80汇总
4546
124汇总
5224
37汇总
3026
81汇总
4340
125汇总
5266
38汇总
4094
82汇总
6020
126汇总
4303
39汇总
5328
83汇总
4358
127汇总
5330
40汇总
2692
84汇总
2144
128汇总
5749
41汇总
3793
85汇总
4008
129汇总
3522
42汇总
3395
86汇总
2282
130汇总
4215
43汇总
5416
87汇总
4284
131汇总
3782
132汇总
3968
176汇总
6427
220汇总
3753
133汇总
4554
177汇总
4612
221汇总
3266
134汇总
2370
178汇总
5015
222汇总
3097
135汇总
2851
179汇总
232
223汇总
3612
136汇总
2777
180汇总
4903
224汇总
4771
137汇总
3910
181汇总
3562
225汇总
3019
138汇总
3147
182汇总
4298
226汇总
2570
139汇总
3315
183汇总
3435
227汇总
4697
140汇总
2473
184汇总
3119
228汇总
5817
141汇总
1234
185汇总
1313
229汇总
4053
142汇总
2327
186汇总
4281
230汇总
6791
143汇总
4045
187汇总
5276
231汇总
3768
144汇总
5583
188汇总
4358
232汇总
3406
145汇总
1378
189汇总
842
233汇总
4323
146汇总
4613
190汇总
4875
234汇总
4531
147汇总
3380
191汇总
4508
235汇总
4631
148汇总
2096
192汇总
3291
236汇总
5646
149汇总
5748
193汇总
5179
237汇总
3875
150汇总
3740
194汇总
5287
238汇总
4277
151汇总
3569
195汇总
4096
239汇总
3647
152汇总
3203
196汇总
2371
240汇总
2229
153汇总
3247
197汇总
2296
241汇总
3944
154汇总
2965
198汇总
3081
242汇总
2917
155汇总
3391
199汇总
3196
243汇总
1842
156汇总
2319
200汇总
4223
244汇总
4223
157汇总
3124
201汇总
3849
245汇总
2385
158汇总
2506
202汇总
1876
246汇总
5089
159汇总
5587
203汇总
5047
247汇总
4743
160汇总
5076
204汇总
2982
248汇总
1800
161汇总
6118
205汇总
1957
249汇总
5056
162汇总
4733
206汇总
3842
250汇总
1840
163汇总
2393
207汇总
4183
251汇总
2331
164汇总
4367
208汇总
1584
252汇总
4273
165汇总
4293
209汇总
5012
253汇总
3558
166汇总
4219
210汇总
2417
254汇总
4376
167汇总
5811
211汇总
1967
255汇总
6653
168汇总
4411
212汇总
4685
256汇总
4014
169汇总
4097
213汇总
3465
257汇总
3199
170汇总
6495
214汇总
3615
258汇总
5124
171汇总
3442
215汇总
4329
259汇总
6228
172汇总
4070
216汇总
3674
260汇总
4676
173汇总
3827
217汇总
5245
261汇总
2501
174汇总
4367
218汇总
3751
262汇总
4176
175汇总
1514
219汇总
2727
263汇总
5277
264汇总
3952
276汇总
1987
288汇总
3468
265汇总
3416
277汇总
5301
289汇总
3267
266汇总
4037
278汇总
4737
290汇总
4552
267汇总
3850
279汇总
4042
291汇总
2352
268汇总
3207
280汇总
2035
292汇总
3022
269汇总
3295
281汇总
3836
293汇总
2326
270汇总
3111
282汇总
5098
294汇总
4499
271汇总
2511
283汇总
2901
295汇总
3029
272汇总
3889
284汇总
4983
296汇总
4416
273汇总
2317
285汇总
3723
297汇总
5908
274汇总
3574
286汇总
5833
298汇总
2846
275汇总
1499
287汇总
4956
299汇总
3545
300汇总
791
11.1.2问题1的程序:
>>x=[1:
1:
14];
>>y=[13416302650414630241766];
>>loadcensus;
>>sdate=(x-mean(x))./std(x);
>>p2=polyfit(x,y,2);
>>y2=polyval(p2,sdate);
>>plot(x,y2,'b-',x,y,'g+');
>>res2=y-y2;
>>figure,plot(x,res2,'g+');
>>p4=polyfit(x,y,4);
>>y4=polyval(p4,x);
>>figure,plot(x,y4,'-b',x,y,'g+');
>>res4=y-y4;
>>figure,plot(x,res4,'g+');
>>p6=polyfit(x,y,6);
>>y6=polyval(p6,x);
>>figure,plot(x,y6,'b-',x,y,'g+');
>>res6=y-y6;
>>figure,plot(x,y6,'g+');
>>max(abs(res2))
ans=
74.6223
>>max(abs(res4))
ans=
10.0350
>>max(abs(res6))
ans=
9.5013
二次拟合函数
四次拟合函数
六次拟合函数
说明:
最佳拟合函数为
此时的残差是:
9.5013
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通话数据分析 通话 数据 分析