统计专业实验实验06聚类分析.docx
- 文档编号:23374765
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:10
- 大小:388.57KB
统计专业实验实验06聚类分析.docx
《统计专业实验实验06聚类分析.docx》由会员分享,可在线阅读,更多相关《统计专业实验实验06聚类分析.docx(10页珍藏版)》请在冰豆网上搜索。
统计专业实验实验06聚类分析
重庆工商大学数学与统计学院
《统计专业实验》课程
实验报告
实验课程:
_统计专业实验
指导教师:
__叶勇_
专业班级:
统计专业二班___
学生姓名:
__殷婷___
学生学号:
2010101217_____
实验报告
实验项目
实验六聚类分析
实验日期
2013-4-5
实验地点
80608
实验目的
了解聚类分析的原理,并掌握聚类分析的方法和过程。
实验内容
1.根据信息基础设施的发展状况,已知20个国家和地区信息基础设施基本数据,对世界20个国家和地区进行聚类分析,并对结果进行判断。
数据见实验指导书。
2.根据2008年全国各省市居民消费结构,进行聚类分析。
3.对重庆市各区县的经济发展类型进行聚类分析。
实验思考题解答:
1.变量的测度类型有哪些?
变量的测度类型包括间距尺度、有序尺度和名义尺度
2.系统聚类法的思想是什么?
系统聚类法的基本思想是距离相近的样品(或变量)先聚成类距离相远的后聚成类过程一直进行下去每个样品(或变量)总能聚到合适的类中。
3.最短距离法是不是一种优良的系统聚类方法,为什么?
它适合于什么形态类的聚类?
不是因为最短距离法有链接聚合的趋势合并之后新类与其他类的距离缩短会形成聚类延伸的情况。
适合于样品散点图呈条形甚至是S形的类。
4.组间联结法和组内联结法都是计算所有样本对的平均距离,请说明其区别?
组间平均链锁法定义两个小类之间的距离为所有样本对间的平均距离。
组内平均链锁法是对所有样本对之间的距离求平均值包括小类之间的样本对、小类内的样本对组间联结法利用了所有样本对距离的信息克服了最短距离和最长距离中的距离易受极端值影响的弱点。
组类联结法与组间联结法相比它在聚类的每一步都考虑了类内部相似性的变化。
实验运行程序、基本步骤及运行结果:
1.根据信息基础设施的发展状况,已知20个国家和地区信息基础设施基本数据,对
世界20个国家和地区进行聚类分析,并对结果进行判断。
根据信息基础设施的发展状况,已知20个国家和地区信息基础设施基本数据如表:
其中:
call-每千人拥有电话线,movecall-每千户居民蜂窝移动电话数
fee-高峰时每3分钟国际电话成本,computer-每千人拥有计算机数
mips-每千人中计算机运算功率(每秒百万指令),net-每千人互联网用户数
no
国家
Call
movecall
fee
computer
mips
Net
1
美国
631.6
161.9
0.36
403
26073
35.34
2
日本
498.4
143.2
3.57
176
10223
6.26
3
德国
557.6
70.6
2.18
199
11571
9.48
4
瑞典
684.1
281.8
1.4
286
16660
29.39
5
瑞士
644
93.5
1.98
234
13621
22.68
6
丹麦
620.3
248.6
2.56
296
17210
21.84
7
新加坡
498.4
147.5
2.5
284
13578
13.49
8
中国台湾
469.4
56.1
3.68
119
6911
1.72
9
韩国
434.5
73
3.36
99
5795
1.66
10
巴西
81.9
16.3
3.02
19
876
0.52
11
智利
138.6
8.2
1.4
31
1411
1.28
12
墨西哥
92.2
9.8
2.61
34
1751
0.35
13
俄罗斯
174.9
5
5.12
24
1101
0.48
14
波兰
169
6.5
3.68
40
1796
1.45
15
匈牙利
262.2
49.4
2.66
68
3067
3.09
16
马来西亚
195.5
88.4
4.19
53
2734
1.25
17
泰国
78.6
27.8
4.95
22
1662
0.11
18
印度
13.6
0.3
6.28
2
101
0.01
19
法国
559.1
42.9
1.27
201
11702
4.76
20
英国
521.1
122.5
0.98
248
14461
11.91
步骤:
1.在SPSS中输入数据,每个数据指标为一个变量;
2.选择SPSS的聚类分析功能
Analyze->Classify->HierarchicalclusterAnalysis
3.选择六个信息基础变量到分析变量框中,“国家”到案例标识变量框中;
4.指定聚类方法和输出格式。
注意对距离的选择和聚类方法的选择。
将主要的步骤和SPSS的运行结果记录下来,根据树形图或冰柱图对结论进行分析。
组间平均连锁法:
冰柱图:
分析:
由图可以看出,从8处开始划分,可以将这20个国家和地区分为三类墨西哥、波兰、泰国、智利、巴西、俄罗斯、印度、匈牙利、马来西亚、中国台湾、韩国为一类这些国家和地区都是当时的转型国家和亚洲、拉美的发展中国家属于信息基础设施比较落后的国家。
瑞典、丹麦、瑞士、新加坡、英国、德国、法国、日本为一类它们有的是欧洲发达国家有的是新兴工业化国家所以信息基础设施相对发达一些。
美国独为一类它的信息基础设施最发达的。
2.根据2008年全国各省市居民消费结构,进行聚类分析。
1整理数据并将其导入SPSS中,进行聚类分析操作如下:
Analyze->Classify->Hierarchicalcluster弹出一个对话框,将各项主要消费指标填入变量框中,选择对省进行分类。
2设置输出方式,单击plots选取Dendrogram。
点击ok,得到结果如下
组间平均链锁法:
树状图:
分析:
由图可以看出,从6开始,可以将这31个省分为三类江西、贵州、甘肃、青海、新疆、吉林、宁夏、河北、河南、黑龙江、山西、内蒙古、山东、辽宁、重庆、江苏、安徽、湖北、湖南、陕西、四川、云南、广西、海南、西藏为一类,这些地区大多位于西部和中部,经济较为落后,居民的消费水平也相对较低。
天津、福建、北京、浙江、广东为一类,这些地区居民消费结构相对好一些,他们是中国经济较发达的地区,居民消费水平比较高。
上海单独为一类,上海作为金融中心,居民消费结构情况最好。
3.对重庆市各区县的经济发展类型进行聚类分析。
对重庆市2008年40个区县的经济发展情况类型进行聚类分析,采用了各区县的城镇化率,地区生产总值指数,年末从业人数、总产值、房屋建筑施工面积、工业总产值、全社会固定资产投资。
区县级地方财政收入8个指标进行分析。
城镇化率反映了各区县城镇人口比例,另一方面反映了居民的构成已经该区县发展情况,地区生产总值是指本地区所有常住单位在一定时期内生产活动的最终成果。
地区生产总值等于各产业增加值之和,所以地区生产总值指数可以反映该地区经济活动的情况,通过年末从业人数,总产值等来反映各地区的经济情况。
实验步骤同上:
分析:
由上图可知,从9可以将重庆市各区县分为如下三类:
渝中区位于重庆的中心比较注重经济发展,在工业方面相对较弱,而重庆市的其他地区所处地理位置叫为偏僻,比较注重工业发展,而在总产值上就相对较弱全社会固定资产投资也相对较低所以把他们分为第一类。
第二类中,处于重庆主城,地理位置好,即注重工业的发展也注重固定资产投资,区县级地方财政收入也相对较高。
九龙坡区和渝北区,位于主城,注重工发展的同时,该区的从业人数也相对较高,减少了居民就业难的问题,在房屋建筑上也比较突出,现的房地产投资在世界又占有相当大的比例。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 专业 实验 06 聚类分析
![提示](https://static.bdocx.com/images/bang_tan.gif)