聚类分析及判别分析实验报告范例.docx
- 文档编号:23231822
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:16
- 大小:53.57KB
聚类分析及判别分析实验报告范例.docx
《聚类分析及判别分析实验报告范例.docx》由会员分享,可在线阅读,更多相关《聚类分析及判别分析实验报告范例.docx(16页珍藏版)》请在冰豆网上搜索。
聚类分析及判别分析实验报告范例
XX电力学院
"应用多元统计分析"
——判别分析与聚类分析
学院:
XX:
学号:
2021年4月
我国局部城市经济开展水平的聚类分析和判别分析
摘要:
本文基于"中国统计年鉴"〔2021年版〕统计数据,寻找评价城市经济开展水平的指标,包括第二三产业开展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS综合考虑各指标,对所选城市进展K-Means聚类分析,利用Fisher线性判别待判城市类型,进一步验证所建模型的有效性。
关键字:
聚类分析,判别分析,SPSS,城市经济开展水平1,引言
经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。
同时,中国城市化又处于期转折点上,上一期行将完毕,下一期将要开场。
2021年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化进入关键开展阶段,这必将引起深刻的社会变革。
根据2021年4月公布的第六次人口普查数据,2021年中国居住城镇的人口接近6.6亿人,城镇化率到达49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。
在过去30多年中,中国的城市化开展取得了很大成绩。
然而,总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市开展,导致不能兼顾效率和公平的非协调道路;是片面追求城市开展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。
传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。
具体而言,中国城市经济开展水平受限于地理、环境、资源以及政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。
2021年中国城市开展报告中指出,从区域角度看,目前沿海一带城市开展起步早,与国际贸易交流往来频率高,经济开展水平较高,西部地区受到政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济开展水平仅次于沿海兴旺地区,而中部地区城市开展的水平已经落到了最后。
显然,通过研究不同城市的经济开展状况和经济类型,指出其开展差异所在,可以为政府在出台相关政策来平衡区域经济开展,缩小不同地区人民生活水平的差异提供一定的指导意见,也为我们深刻理解相关政策提供了扎实的根底。
2,相关统计根底理论
2.1,聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
聚类分析的目标就是在相似的根底上收集数据来分类。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种法。
传统的统计聚类分析法包括系统聚类法、分解法、参加法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被参加到多著名的统计分析软件包中,如SPSS、SAS等。
本文使用统计软件SPSS对所收集的数据进展快速聚类,其特点是:
在确定类别数量根底上,先给定一个粗糙的初始分类,然后按照某种原那么进展反复修改,直至分类较为合理。
在选定类中心作为凝聚点的根底上进展分类和修正的法有很多,本文使用的是K-Means算法。
K-Means算法承受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:
同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
聚类相似度是利用各聚类中对象的均值所获得一个"中心对象〞〔引力中心〕来进展计算的。
K-Means算法的工作过程说明如下:
首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,那么根据它们与这些聚类中心的相似度〔距离〕,分别将它们分配给与其最相似的〔聚类中心所代表的〕聚类;然后再计算每个所获新聚类的聚类中心〔该聚类中所有对象的均值〕;不断重复这一过程直到标准测度函数开场收敛为止。
一般都采用均差作为标准测度函数。
一般而言,k个聚类具有以下特点:
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
2.2,判别分析
判别分析是市场研究的重要分析技术,也是多变量分析技术。
它可以就一定数量的个体的一个分类变量和相应的其它多元变量的信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图〔概念图〕。
同时,利用这一数量关系对其他多元变量的信息、但未知分组的子类型的个体进展判别分组。
判别分析属于监视类分析法,例如:
市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进展鉴别。
并在低维度空间表现这种差异。
判别分析主要有距离判别、贝叶斯〔Bayes〕判别、费舍尔〔Fisher〕判别等几种常用法。
距离判别的根本原理是:
首先对样本到总体G之间的距离进展合理规定,然后依照"就近〞原那么判定样本的归属,常用马氏距离〔Mahalanobis〕规定为:
式中
为p元总体G的协差阵,x是取自G的样品,那么该式即为样品x到总体G的马氏距离。
贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准那么。
费舍尔判别的根本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进展距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体
的距离可以用欧式距离度量,即:
由此导出Fisher判别规那么为:
,那么
本文及使用Fisher判别建立线性判别函数进展距离判别。
3,模型建立
3.1设置变量
本文综合考虑了评价城市开展指数衡量因素,选取衡量一个城市经济开展水平的主要因素,城市化进程总是伴随着工业化开展,兴旺的效劳业水平是衡量现代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:
X1:
城市第二产业产值〔亿元〕
X2:
城市第三产业产值〔亿元〕
X3:
城市固定资产投资总额〔亿元〕
X4:
城市社会消费品零售总额〔亿元〕
X5:
货物进出口总额〔亿元〕
从区域开展角度从上面5个经济指标将城市经济开展水平划分为三大类:
G1:
兴旺城市
G2:
中度兴旺城市
G3:
欠兴旺城市
3.2数据收集和整理
本文所有数据来源于"中国统计年鉴〔2021〕",选取2021年度36个城市主要经济开展水平做模型建立及分析。
其中前32个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;最后四个城市〔、、、〕及其相关经济开展水平用作待判样品,利用判别函数进展判别分析。
所有相关数据经过量纲统一规那么化处理见表1所示。
表1我国局部城市相关经济开展水平〔2021年〕
序号
城市
第二产业〔亿元〕
第三产业〔亿元〕
固定资产投资总额〔亿元〕
社会消费品零售总额〔亿元〕
货物进出口总额〔亿元〕
1
北京
3752.5
12363.2
5851.5201
6900.3246
23374.9884
2
天津
5928.3
5219.2
7483.6973
3395.06
6203.4642
3
家庄
2031.9
1635.8
3026.9778
1662.9864
850.1112
4
太原
949.2
1097.1
1024.1444
973.2937
513.6306
5
呼和浩特
790.0
1277.8
1031.6781
890.0478
121.4736
6
阳
3026.9
2609.8
4577.094
2426.8655
637.215
7
大连
3204.2
2550.7
4580.0585
1924.794
3630.5874
8
长春
2092.7
1620.2
2356.6189
1515.8537
1040.9322
9
哈尔滨
1647.2
2147.8
3011.971
2070.4129
307.0548
10
上海
7927.9
11142.9
5064.2624
6814.8
26246.151
11
南京
2760.8
3220.4
3757.2517
2697.0997
3440.6358
12
宁波
3349.5
2454.5
2385.5072
2021.8617
5891.2092
13
合肥
2002.2
1426.2
3376.9652
1111.1188
1207.719
14
福州
1711.2
1700.1
2720.2827
1947.8102
2083.4856
15
厦门
1297.1
1217.5
1128.0872
800.2779
4210.0002
16
南昌
1579.3
974.7
2022.3297
928.3438
473.0226
17
济南
1829.0
2339.5
1934.3389
2114.2868
624.123
18
青岛
3150.7
3158.5
3502.5382
2302.3703
4329.1302
19
州
2874.2
1974.0
3002.5
1987.1147
959.7354
20
武汉
3254.0
3309.5
4255.1621
3031.7885
1367.3748
21
长沙
3151.7
2224.3
3510.2425
2201.6112
449.3604
22
广州
4577.0
7641.9
3412.2
5243
6970.26
23
深圳
5343.3
6155.7
2136.3882
3520.8736
24845.982
24
海口
177.9
487.7
395.0408
387.1804
236.1756
25
重庆
5543.0
3623.8
7579.4454
3487.807
1753.0716
26
成都
3143.8
3383.4
4944.0157
2861.2835
2274.3798
27
贵阳
586.8
733.7
1600.5898
584.3292
392.9796
28
拉萨
75.2
137.2
220.5031
102.5948
78.4452
29
西安
1697.2
1993.9
3352.12
1965.9774
754.74
30
兰州
656.5
663.5
950.5758
639.7231
112.7658
31
西宁
411.3
332.0
528.0052
271.2873
48.9378
32
乌木齐
759.1
908.9
427.6221
695.0278
541.7904
33
杭州
3323.8
3458.5
3100.0218
2548.3599
3838.308
34
南宁
829.6
1076.3
1950.8628
1073.1541
150.6252
35
昆明
1161.2
1214.6
2275.5286
1271.7298
721.3224
36
银川
525.2
414.4
720.5627
274.4705
72.6
4,数据结果及分析
4.1聚类分析
4.1.1聚类分析过程
采用统计软件SPSS可以快速便的将样本分类,"K-均值聚类〞将样本分为设定好的三类,分类结果如下:
〔1〕K-均值聚类初始聚类中心
初始聚类中心
聚类
1
2
3
第二产业〔亿元〕
7928
5928
75
第三产业〔亿元〕
11143
5219
137
固定资产投资总额〔亿元〕
5064.1
7483.1
220.0
社会消费品零售总额〔亿元〕
6814.8000
3395.0600
102.5948
货物进出口总额〔亿元〕
26246.0
6203.0
78.0
〔2〕样本聚类
聚类成员
案例号
城市
聚类
距离
案例号
城市
聚类
距离
1
1
3937.772
17
XX
3
1347.154
2
XX
2
4379.850
18
XX
2
1710.043
3
家庄
3
1259.026
19
州
3
1969.261
4
XX
3
1214.
20
XX
2
2771.834
5
呼和浩特
3
1414.697
21
XX
3
2607.583
6
阳
3
3452.674
22
XX
2
5518.235
7
XX
2
1842.873
23
XX
1
4887.376
8
XX
3
837.811
24
XX
3
2474.750
9
XX
3
1584.291
25
XX
2
4072.601
10
XX
1
3214.673
26
XX
2
1942.910
11
XX
2
1681.205
27
XX
3
1402.620
12
XX
2
3455.979
28
XX
3
2918.190
13
XX
3
1536.881
29
XX
3
1652.625
14
XX
3
1682.563
30
XX
3
1767.334
15
XX
3
3577.169
31
XX
3
2433.503
16
XX
3
617.367
32
乌木齐
3
1898.368
〔3〕最终聚类中心
最终聚类中心
聚类
1
2
3
第二产业〔亿元〕
5675
3879
1467
第三产业〔亿元〕
9887
3840
1375
固定资产投资总额〔亿元〕
4350.8
4655.0
2021.0
社会消费品零售总额〔亿元〕
5745.3327
2995.7850
1263.8072
货物进出口总额〔亿元〕
24822.0
3984.0
782.0
最终聚类中心间的距离
聚类
1
2
3
1
21946.797
26337.272
2
21946.797
5669.843
3
26337.272
5669.843
〔4〕聚类差分析
差分析
聚类
误差
F
Sig.
均
df
均
df
第二产业〔亿元〕
34313207.735
2
1231856.479
29
27.855
.000
第三产业〔亿元〕
100446019.013
2
1811059.407
29
55.463
.000
固定资产投资总额〔亿元〕
24862358.673
2
2205819.376
29
11.271
.000
社会消费品零售总额〔亿元〕
30454986.050
2
887338.531
29
34.322
.000
货物进出口总额〔亿元〕
753836973.383
2
1848036.992
29
407.912
.000
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差异。
观测到的显著性水平并未据此进展更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
4.1.2聚类结果分析
从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:
G1〔兴旺城市〕:
,XX,。
G2〔中度兴旺城市〕:
XX,,,,,,,,程度。
G3〔欠兴旺城市〕:
,,呼和浩特,,,,,,,,,,,,,,,,,乌木齐。
从城市分类结果可知,北上深作为国际化城市开展代表,其经济开展水平远超其他沿海城市及陆城市;沿海开放城市以及陆主要枢纽城市的开展水平高于其他城市;中部地区级西部城市开展水平受限于地理、资源和资本等因素,经济开展表现不强劲。
从最后的差分析中可知,分类检验水平显著,分类结果值得借鉴。
4.2判别分析
4.2.1判别结果及分析
一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量〔dependentvariable):
分组变量——定性数据〔个体、产品/品牌、特征,定类变量〕。
自变量(independentvariable):
判别变量——定量数据〔属性的评价得分,数量型变量〕。
〔1〕判别图
图1典那么判别函数
从图中很明显,看到三个组中心也就是经济开展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以承受的。
〔2〕典型判别式函数摘要
特征值
函数
特征值
差的%
累积%
正那么相关性
1
37.790a
98.0
98.0
.987
2
.765a
2.0
100.0
.658
a.分析中使用了前2个典型判别式函数。
Wilks的Lambda
函数检验
Wilks的Lambda
卡
df
Sig.
1到2
.015
114.106
10
.000
2
.567
15.336
4
.004
标准化的典型判别式函数系数
函数
1
2
第二产业〔亿元〕
-.974
.940
第三产业〔亿元〕
-1.198
.773
固定资产投资总额〔亿元〕
.752
.211
社会消费品零售总额〔亿元〕
1.190
-.675
货物进出口总额〔亿元〕
1.409
-.314
构造矩阵
函数
1
2
货物进出口总额〔亿元〕
.863*
.090
第二产业〔亿元〕
.184
.920*
固定资产投资总额〔亿元〕
.076
.857*
社会消费品零售总额〔亿元〕
.231
.675*
第三产业〔亿元〕
.308
.567*
判别变量和标准化典型判别式函数之间的会聚组间相关性
按函数相关性的绝对大小排序的变量。
*.每个变量和任意判别式函数间最大的绝对相关性
从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。
〔3〕分类统计量
组的先验概率
类别
先验
用于分析的案例
未加权的
已加权的
1
.333
3
3.000
2
.333
9
9.000
3
.333
20
20.000
合计
1.000
32
32.000
分类函数系数
类别
1
2
3
第二产业〔亿元〕
-.019
-.001
-.001
第三产业〔亿元〕
-.
-.004
-.003
固定资产投资总额〔亿元〕
.011
.002
.001
社会消费品零售总额〔亿元〕
.030
.006
.004
货物进出口总额〔亿元〕
.
.003
.001
(常量)
-231.519
-12.269
-2.727
Fisher的线性判别式函数
Fisher线性判别函数,我们主要用来构建判别程,理论上说:
如果我们知道某个城市在5经济指标的开展水平值,我们就可以估计出该城市应该是哪种类型的。
4.2.2判别检验
判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个〔序号33-36〕个体就可作为检验样本,也成待判样本。
由上表可知Fisher判别程:
判别规那么:
,那么
判别结果:
1
XX
2
1583.391
2
XX
3
842.774
3
XX
3
401.567
4
XX
3
2095.787
直观上,作为沿海省会城市,虽然达不到北上深的经济开展地位,但其良好的地理位置以及投资开发环境,使得其经济开展水平非常迅速,归类到第二类经济开展城市是可以理解与接收的。
其余三个城市虽然都是省会城市,但都属于西部城市,地理位置以及资源物产相对欠缺,得力于西部大开发政策影响,经济开展面距第三类城市相近。
5,结论
从本文所建立的模型对我国局部主要城市经济开展水平进展了聚类分析与判别分析,并运用模型判断最后四个城市,验证模型的有效性。
从相关结果及分析可以得到一些直观的结论。
作为我国首都,毋庸置疑具有天然的开展优势,其政治中心,交通中心,文化中心的地位吸引了国外大量的投资建立,一批高科技产业带动的行业开展极大的推动了的经济开展;XX作为中国的经济金融中心,加之其边江浙地带兴旺的工业根底,都为XX的经济开展增加了强劲的力量;的开展是中国改革开放以来经济开展的典,开放的力量使得这个沿海城市一举成为中国兴旺城市的先驱。
判别图里清晰的说明北上广的开展远远超过二三类型的城市开展水平。
沿海主要城市以及陆枢纽城市的开展得益于丰富的资源以及便利交通带来的大量投资,或者传统的工业根底,这些因素都使得这一类的城市开展迅速,势头强劲。
其余中西部城市的开展各有其优劣,但总体上西部城市受西部大开发政策影响,变现出新兴的开展势头。
判别图分析可见二三类型经济开展水平相差不大。
由此,所建立模型直观上符合我国局部主要城市经济开展水平类型,最后的四个城市判别再次说明了模型的有效性。
参考文献
[1]海燕,梦,卫国,伟.应用数理统计[M].:
航空航天大学数学系,2021.
[2]建同,昌言.以Excel和SPSS为工具的管理统计[M].:
清华大学,2002.
[3]统计局.2021年中国统计年鉴[M].中国统计,2021
[4]中国城市经济学会.中国城市经济[J].:
中国社会科学院
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 判别分析 实验 报告 范例