聚类分析实验报告SPSS参考Word.docx
- 文档编号:8921696
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:11
- 大小:245.14KB
聚类分析实验报告SPSS参考Word.docx
《聚类分析实验报告SPSS参考Word.docx》由会员分享,可在线阅读,更多相关《聚类分析实验报告SPSS参考Word.docx(11页珍藏版)》请在冰豆网上搜索。
聚类分析实验报告SPSS参考Word
一、实验目的及要求:
1、目的
用SPSS软件实现聚类分析及其应用。
2、内容及要求
用SPSS对实验数据运用系统聚类法和K均值聚类法进行分析。
二、仪器用具:
仪器名称
规格/型号
数量
备注
计算机
1
有网络环境
SPSS软件
1
三、实验方法与步骤:
准备工作:
把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。
分析:
由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高,因此,在以下的分析过程中,先采用系统聚类法分析,得出相应结果和碎石图(即聚合系数随分类数变化的曲线图),根据碎石图来判定分几类比较合适,然后再用K均值聚类法进行聚类分析得出结果,比较两结果的异同,以得到比较可信的结果。
四、实验结果与数据处理:
1)用系统聚类法对所有个案进行聚类:
采用Z分数对数据进行标准化处理。
以下图一为聚类方法为“组间联接”时的冰柱图,图二为聚类方法为“Ward法”时的冰柱图,图三为聚类方法为“质心聚类法”时的冰柱图。
不难看出在分五类的情况下,(未标出的所有为一类)
图一的分类为:
北京;天津;上海、浙江、广东;辽宁、四川、江苏、山东;……
图二的分类为:
北京;天津;上海、海南、浙江、广东;辽宁、四川、江苏、山东;……图三的分类为:
北京;天津;上海、浙江、广东;辽宁、四川、江苏、山东;……
聚类方法为“组间联接”与“质心聚类法”时分五类的情况是一样的,而聚类方法为“Ward法”时与它们两个有些许差别,但总的来说在分五类时,比较可信的结论是北京、天津单独为一类,辽宁、四川、江苏、山东为一类,上海、浙江、广东为一类,在海南省的划分上有些差异,“Ward法”中将其与上海、浙江、广东分为一类,但是其余两个将海南与未列出各省划为一类。
图一
图二
图三
2)系统聚类法分析时的碎石图:
聚类方法为“组间联接”时的碎石图:
聚类方法为“Ward法”时的碎石图:
聚类方法为“质心聚类法”时的碎石图:
由这三个图可以看出在聚类方法为“Ward法”时的碎石图不如另外两个图落差那么明显,但是综合这三个图来看,分五类还是相对比较合理的,这也是为什么在第一部分的分析中只看了分
五类时的情况,而且在下面的K均值聚类分析中,也将指定聚类数为5.
3)K均值聚类:
在下页表一中显示了样品的分类情况,我们看到,K均值聚类法将所分析的31个省、市、自治区分为这样的五类:
1:
北京;
2:
福建、海南;
3:
辽宁、江苏、山东、四川;
4:
天津、上海、浙江、广东;
5:
剩下的20个省、市、自治区。
对比之前系统聚类法的分析结果,我们可以明显感觉到二者的聚类结果还是有较大差异的,尽管如此,仍然有相似之处,在两种方法下,都是北京单独为一类,辽宁、四川、江苏、山东为一类,上海、浙江、广东在一类中,所以综合这两种方法得到的这些省、市、自治区的分类应该还是比较可信的。
表一聚类成员
案例号
省份
聚类
距离
1
北京
1
.000
2
天津
4
4858.518
3
河北
5
2437.069
4
山西
5
2756.057
5
内蒙古
5
1259.428
6
辽宁
3
1851.996
7
吉林
5
2383.755
8
黑龙江
5
2065.670
9
上海
4
4346.782
10
江苏
3
2020.990
11
浙江
4
2963.427
12
安徽
5
1791.589
13
福建
2
2648.765
14
江西
5
2436.133
15
山东
3
1524.880
16
河南
5
2522.320
17
湖北
5
2225.459
18
湖南
5
1700.929
19
广东
4
4382.189
20
广西
5
1714.006
21
海南
2
2648.765
22
重庆
5
2673.915
23
四川
3
2083.996
24
贵州
5
2023.430
25
云南
5
1628.781
26
西藏
5
6160.693
27
陕西
5
1786.561
28
甘肃
5
3418.506
29
青海
5
2981.479
30
宁夏
5
2131.259
31
新疆
5
1541.829
下页表二是方差分析表,这里的F值只能作为描述使用,不能根据该值判断各类均值是否有显著差异。
从该表可以看出,所选择的9个变量对分类均有显著贡献。
表二ANOVA
聚类
误差
F
Sig.
均方
df
均方
df
房屋平均销售价格
34522436.534
4
261277.010
26
132.130
.000
住宅平均销售价格
31815585.858
4
281908.617
26
112.858
.000
别墅、高档公寓平均销售价格
76657879.137
4
2053147.885
26
37.337
.000
经济适用房平均销售价格
1967643.236
4
160745.356
26
12.241
.000
办公楼平均销售价格
58725137.655
4
2007948.202
26
29.246
.000
商业营业用房平均销售价格
46733455.722
4
990173.537
26
47.197
.000
其他平均销售价格
12044438.360
4
1270360.473
26
9.481
.000
商品房销售面积
9849067.315
4
1066492.321
26
9.235
.000
住宅销售面积
7958587.713
4
854039.674
26
9.319
.000
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
表三最终聚类中心
聚类
1
2
3
4
5
房屋平均销售价格
12418
4914
3484
6606
2578
住宅平均销售价格
11648
4970
3324
6395
2430
别墅、高档公寓平均销售价格
19541
8196
7546
10035
4537
经济适用房平均销售价格
3813
2000
1777
2723
1633
办公楼平均销售价格
16554
5609
5495
10459
4532
商业营业用房平均销售价格
17148
6882
5363
8256
4549
其他平均销售价格
6416
3422
2823
5800
2485
商品房销售面积
1335.37
999.06
4797.98
2858.95
1600.43
住宅销售面积
1031.43
804.36
4325.20
2496.01
1467.77
在所分析的9个变量中,前七个为各种房屋的平均销售价格,后两个为商品房和住宅的销售面积。
表三为最终聚类中心表,可以看到,第1类地区各种房屋的平均销售价格(前7个变量)最高,其次为第4类,然后是第2类、第3类、第5类。
而第3类地区的商品房和住宅销售面积(后2个变量)最大,其次为第4类,然后是第5类、第1类、第2类。
4)总结和结论:
综上所述,北京地区各种房屋的平均销售价格是最高的,而商品房和住宅的销售面积相对还是比较少的,考虑到该地区的特殊性(为我国的首都),寸土寸金,这样的事实还是可以让人接受的。
上海、浙江、广东三个地区各种住房的平均销售价格、商品房和住宅的销售面积都处于第二位,虽然商品房和住宅的销售面积也蛮大,但是人口密度太大,在这种需求大于供给的情况下,房屋价格会高也是必然的。
另外,辽宁、江苏、山东、四川四个地区商品房和住宅的销售面积位于五类地区之首,各种住房的平均销售价格排在第四位。
(本资料素材和资料部分来自网络,仅供参考。
请预览后才下载,期待您的好评与关注!
)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 实验 报告 SPSS 参考 Word