111017马坤鹏聚类分析实验报告.docx
- 文档编号:10292314
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:19
- 大小:235.97KB
111017马坤鹏聚类分析实验报告.docx
《111017马坤鹏聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《111017马坤鹏聚类分析实验报告.docx(19页珍藏版)》请在冰豆网上搜索。
111017马坤鹏聚类分析实验报告
合肥学院数理系
实验报告
实验名称:
聚类分析
面向专业:
信息与计算科学
实验班级:
12级数理系信息班
课程名称:
数据分析
学生姓名:
马坤鹏
学号:
1207011017
指导教师:
张林松
实验成绩:
2014-2015学年第二学期
1、实验内容
为了更深入了解我国人口的文化程度状况,现采集2000年全国人口普查数据对全国30个省、直辖市、自治区的人口文化程度的数据。
观测选用了三个指标:
(1)大学以上文化程度的人口占全部人口的比例(DXBC)
(2)初中文化程度的人口占全部人口的比例(CZBC)(3)文盲、半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。
数据列:
地区
编号
DXBL
CZBL
WMBL
北京
1
9.3
30.55
8.7
天津
2
4.67
29.38
8.92
河北
3
0.96
24.69
15.21
山西
4
1.38
29.24
11.3
内蒙
5
1.48
25.47
15.39
辽宁
6
2.6
32.32
8.81
吉林
7
2.15
26.31
10.49
黑龙江
8
2.14
28.46
10.87
上海
9
6.53
31.59
11.04
江苏
10
1.47
26.43
17.23
浙江
11
1.17
23.74
17.46
安徽
12
0.88
19.97
24.43
福建
13
1.23
16.87
15.63
江西
14
0.99
18.84
16.22
山东
15
0.98
25.18
16.87
河南
16
0.85
26.25
16.15
湖北
17
1.57
23.16
15.79
湖南
18
1.14
22.57
12.1
广东
19
1.34
23.04
10.45
广西
20
0.79
19.14
10.61
海南
21
1.24
22.53
13.97
四川
22
0.96
21.65
16.24
贵州
23
0.78
14.65
24.27
云南
24
0.81
13.85
25.44
西藏
25
0.57
3.85
44.43
陕西
26
1.67
24.36
17.62
甘肃
27
1.1
16.85
27.93
青海
28
1.49
17.76
27.7
宁夏
29
1.61
20.27
22.06
新疆
30
1.85
20.66
12.75
2、实验目的
为了科学评价个地区人口文化状况,以便为教育文化投资的流向和政策的制定提供合理的依据,我们需要对各省区进行分类。
使用系统聚类方法,距离使用类平均法。
使用系统聚类方法,距离使用可变类平均法
3、实验方案分析
该问题系统聚类分析是聚类分析中应用的最广泛的一种方法。
首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。
分类结果可以画成一张直观的聚类谱系图。
应用系统聚
4/12
类法进行聚类分析的步骤如下:
①确定待分类的样品的指标②收集数据
③对数据进行变换处理
④使各个样品自成一类,即n个样品一共有n类
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
4、操作过程:
datamkp;
inputgroup$x1-x3;
cards;
地区DXBLCZBLWMBL
北京9.330.558.7
天津4.6729.388.92
河北0.9624.6915.21
山西1.3829.2411.3
内蒙1.4825.4715.39
辽宁2.632.328.81
吉林2.1526.3110.49
黑龙江2.1428.4610.87
上海6.5331.5911.04
江苏1.4726.4317.23
浙江1.1723.7417.46
安徽0.8819.9724.43
福建1.2316.8715.63
江西0.9918.8416.22
山东0.9825.1816.87
河南0.8526.2516.15
湖北1.5723.1615.79
湖南1.1422.5712.1
广东1.3423.0410.45
广西0.7919.1410.61
海南1.2422.5313.97
四川0.9621.6516.24
贵州0.7814.6524.27
云南0.8113.8525.44
西藏0.573.8544.43
陕西1.6724.3617.62
甘肃1.116.8527.93
青海1.4917.7627.7
宁夏1.6120.2722.06
新疆1.8520.6612.75
;
procprintdata=mkp;
run;
procclusterdata=mkpmethod=avestdpseudoccc
outtree=mkp1;
varx1-x3;
idgroup;
proctreedata=mkp1horizontalgraphics;
title'使用类平均法的谱系聚类图';
run;
title;
procclusterdata=mkpmethod=flestdpseudocccBETA=-0.25
outtree=mkp1;
varx1-x3;
idgroup;
proctreedata=mkp1horizontalgraphics;
title'使用可变类平均法的谱系聚类图';
run;
title;
5、实验结果
SAS系统
Obs
group
x1
x2
x3
1
地区
.
.
.
2
北京
9.30
30.55
8.70
3
天津
4.67
29.38
8.92
4
河北
0.96
24.69
15.21
5
山西
1.38
29.24
11.30
6
内蒙
1.48
25.47
15.39
7
辽宁
2.60
32.32
8.81
8
吉林
2.15
26.31
10.49
9
黑龙江
2.14
28.46
10.87
10
上海
6.53
31.59
11.04
11
江苏
1.47
26.43
17.23
12
浙江
1.17
23.74
17.46
13
安徽
0.88
19.97
24.43
14
福建
1.23
16.87
15.63
15
江西
0.99
18.84
16.22
16
山东
0.98
25.18
16.87
17
河南
0.85
26.25
16.15
18
湖北
1.57
23.16
15.79
19
湖南
1.14
22.57
12.10
20
广东
1.34
23.04
10.45
21
广西
0.79
19.14
10.61
22
海南
1.24
22.53
13.97
23
四川
0.96
21.65
16.24
24
贵州
0.78
14.65
24.27
25
云南
0.81
13.85
25.44
26
西藏
0.57
3.85
44.43
27
陕西
1.67
24.36
17.62
28
甘肃
1.10
16.85
27.93
29
青海
1.49
17.76
27.70
30
宁夏
1.61
20.27
22.06
31
新疆
1.85
20.66
12.75
SAS系统
CLUSTER过程
类平均聚类分析
相关矩阵的特征值
特征值
差分
比例
累积
1
2.22095184
1.59056779
0.7403
0.7403
2
0.63038405
0.48171995
0.2101
0.9504
3
0.14866411
0.0496
1.0000
已将数据标准化成均值为0且方差为1
根均方总样本标准差
1
观测之间的根均方距离
2.44949
聚类历史
聚类数
连接聚类
频数
半偏
R方
R 方
近似
期望
R方
立方
聚类
条件
伪F
统计量
伪
t方
NormRMS
Distance
结值
29
贵州
云南
2
0.0002
1.00
.
.
150
.
0.0831
28
山东
河南
2
0.0003
1.00
.
.
148
.
0.087
27
湖南
海南
2
0.0004
.999
.
.
134
.
0.1025
26
甘肃
青海
2
0.0004
.999
.
.
128
.
0.1065
25
河北
CL28
3
0.0004
.998
.
.
122
1.7
0.108
24
内蒙
江苏
2
0.0005
.998
.
.
119
.
0.1181
23
浙江
陕西
2
0.0005
.997
.
.
119
.
0.1183
22
CL23
湖北
3
0.0006
.997
.
.
116
1.3
0.1304
21
福建
江西
2
0.0007
.996
.
.
111
.
0.147
20
吉林
黑龙江
2
0.0007
.995
.
.
110
.
0.1471
19
CL25
CL24
5
0.0013
.994
.
.
99.4
3.4
0.1518
18
CL27
广东
3
0.0010
.993
.
.
98.8
2.7
0.1548
17
CL19
CL22
8
0.0029
.990
.
.
80.4
4.8
0.1876
16
安徽
宁夏
2
0.0015
.989
.
.
80.4
.
0.2059
15
CL18
新疆
4
0.0020
.987
.
.
78.6
3.0
0.2119
14
山西
CL20
3
0.0021
.984
.
.
78.0
2.8
0.2253
13
CL17
四川
9
0.0033
.981
.
.
73.8
3.5
0.2558
12
CL15
广西
5
0.0038
.977
.
.
70.7
3.4
0.2847
11
CL29
CL26
4
0.0055
.972
.
.
65.6
17.6
0.291
10
CL13
CL12
14
0.0216
.950
.
.
42.4
15.3
0.366
9
CL14
辽宁
4
0.0063
.944
.
.
44.2
4.5
0.3689
8
CL16
CL11
6
0.0107
.933
.
.
43.9
5.6
0.3858
7
CL10
CL21
16
0.0181
.915
.
.
41.3
6.5
0.4421
6
天津
上海
2
0.0070
.908
.877
1.86
47.4
.
0.4511
5
CL7
CL9
20
0.0611
.847
.847
0.01
34.6
16.5
0.6019
4
CL5
CL8
26
0.1846
.662
.802
-3.8
17.0
30.4
0.8467
3
北京
CL6
3
0.0308
.632
.728
-2.4
23.1
4.4
0.8491
2
CL3
CL4
29
0.3546
.277
.580
-4.0
10.7
26.0
1.5097
1
CL2
西藏
30
0.2769
.000
.000
0.00
.
10.7
2.1248
TREE过程
类平均聚类分析
SAS系统
CLUSTER过程
可变类平均聚类分析
相关矩阵的特征值
特征值
差分
比例
累积
1
2.22095184
1.59056779
0.7403
0.7403
2
0.63038405
0.48171995
0.2101
0.9504
3
0.14866411
0.0496
1.0000
Beta
-0.25
已将数据标准化成均值为0且方差为1
根均方总样本标准差
1
观测之间的平均距离
1.972983
聚类历史
聚类数
连接聚类
频数
半偏
R方
R 方
近似
期望
R方
立方
聚类
条件
伪F
统计量
伪
t方
Norm
Flexible
Distance
结值
29
贵州
云南
2
0.0002
1.00
.
.
150
.
0.1032
28
山东
河南
2
0.0003
1.00
.
.
148
.
0.108
27
湖南
海南
2
0.0004
.999
.
.
134
.
0.1273
26
甘肃
青海
2
0.0004
.999
.
.
128
.
0.1322
25
河北
CL28
3
0.0004
.998
.
.
122
1.7
0.1395
24
内蒙
江苏
2
0.0005
.998
.
.
119
.
0.1466
23
浙江
陕西
2
0.0005
.997
.
.
119
.
0.1468
22
CL23
湖北
3
0.0006
.997
.
.
116
1.3
0.1656
21
福建
江西
2
0.0007
.996
.
.
111
.
0.1825
20
吉林
黑龙江
2
0.0007
.995
.
.
110
.
0.1827
19
CL27
广东
3
0.0010
.994
.
.
106
2.7
0.1983
18
CL25
CL24
5
0.0013
.993
.
.
98.8
3.4
0.2303
17
安徽
宁夏
2
0.0015
.991
.
.
94.2
.
0.2557
16
CL22
四川
4
0.0018
.990
.
.
89.4
3.2
0.2694
15
山西
CL20
3
0.0021
.988
.
.
85.2
2.8
0.2973
14
CL19
新疆
4
0.0020
.986
.
.
84.2
3.0
0.3055
13
CL14
广西
5
0.0038
.982
.
.
76.4
3.4
0.4099
12
CL18
CL16
9
0.0044
.977
.
.
70.7
5.7
0.4237
11
CL29
CL26
4
0.0055
.972
.
.
65.6
17.6
0.495
10
CL15
辽宁
4
0.0063
.966
.
.
62.2
4.5
0.5349
9
天津
上海
2
0.0070
.958
.
.
60.6
.
0.56
8
CL21
CL13
7
0.0108
.948
.
.
56.9
6.9
0.5925
7
CL17
CL11
6
0.0107
.937
.
.
57.0
5.6
0.6684
6
CL12
CL8
16
0.0289
.908
.877
1.86
47.4
14.2
1.0845
5
北京
CL9
3
0.0308
.877
.847
1.48
44.7
4.4
1.1413
4
CL6
CL10
20
0.0611
.816
.802
0.54
38.5
16.5
1.9244
3
CL7
西藏
7
0.1114
.705
.728
-.65
32.2
30.5
2.7804
2
CL5
CL4
23
0.3033
.402
.580
-2.6
18.8
38.5
4.0921
1
CL2
CL3
30
0.4015
.000
.000
0.00
.
18.8
5.2726
TREE过程
可变类平均聚类分析
6、分析
使用系统聚类方法,距离使用类平均法的结果可以看出:
北京、天津和上海为一类,西藏自治区为一类,其他地区为一类;
使用系统聚类方法,距离使用可变类平均法的结果可以看出:
北京、天津和上海为一类,安徽、宁夏、贵州、云南、甘肃、青海、西藏为一类,其他地区为一类。
其他输出结果图依次给出了相关矩阵特征值、根均方样本标准差、观测之间的根均方距离、聚类历史、聚类数准则。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 111017 马坤鹏 聚类分析 实验 报告