应用多元分析论文聚类分析判别分析因子分析主成分分析.docx
- 文档编号:23116190
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:20
- 大小:168.92KB
应用多元分析论文聚类分析判别分析因子分析主成分分析.docx
《应用多元分析论文聚类分析判别分析因子分析主成分分析.docx》由会员分享,可在线阅读,更多相关《应用多元分析论文聚类分析判别分析因子分析主成分分析.docx(20页珍藏版)》请在冰豆网上搜索。
应用多元分析论文聚类分析判别分析因子分析主成分分析
对中国各地区农村居民人均消费支出的测评分析
————基于SPSS分析
12统计学1217020072韦**
摘要:
本文对中国各地区农村居民人均消费支出进行测评分析,以31个地区2013年的8项指标数据为样本。
以聚类分析和判别分析相结合对地区农村居民人均消费支出类型进行分析,利用因子分析对描述各地区的农村居民人均消费支出各项指标变量进行分析,再利用各指标变量间的相关性进行分析,得出结论,我国农村居民消费水平严重不平衡。
关键词:
农村居民人均消费支出;聚类分析;判别分析;因子分析;主成分分析
一、前言
随着经济的发展和人民生活水平的不断提高,我国农村居民人均消费支出数额不断提高,从总体上来说,大部分农村居民实现消费水平上达到了小康水平,并且有向更高层次提升趋势。
消费作为主要宏观经济变量,是社会总需求最重要的组成部分,国民经济的增长速度和质量受到居民的消费增长的影响,因此农村居民消费越来越受到重视。
我国由地域的不同分为东部地区、中部地区和西部地区,由于地区不同,长期以来我国一直存在着严重的地区发展不平衡问题,这一问题在农村居民消费上也表现得十分明显。
农村居民新的消费水平和消费性支出存在着很大的差异,因此需要对农村居民消费水平进行客观、准确、有效的评价[]。
二、数据说明
各地区农村居民人均消费支出各指标变量:
原始数据来源:
《中国统计年鉴——2014》
本文所引用数据如下:
三、聚类分析
3.1聚类分析的基本思想
聚类分析又称群分析,是分类学的一种基本方法,所谓“类”,通俗的讲,就是由相似性的元素构成的集合。
聚类分析是一种探索性的分析,也是多元统计学中应用极为广泛的一种重要方法。
在应用中,聚类分析是通过将一批个案或者变量的诸多特征,按照关系的远近程度进行分析。
关系远近程度的定量描述方式不一样,利用聚类方法也不一样,可以产生有差别的聚类结果。
聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来[]
3.2聚类分析的计算和分析
表3-1:
案例处理摘
案例处理摘要a
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
31
100.0%
0
.0%
31
100.0%
a.平方Euclidean距离已使用
上表给出了参加系统聚类分析的9个变量(1个因变量,8个自变量)的记录数统计结果。
共31个有效数据参加了分析,无缺失值记录,总记录数为31个。
表3-2:
聚类进度表
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
17
18
.129
0
0
13
2
6
8
.231
0
0
5
3
24
25
.246
0
0
9
4
12
14
.475
0
0
13
5
6
7
.578
2
0
7
6
3
30
.671
0
0
16
7
5
6
.723
0
5
19
8
22
23
.747
0
0
21
9
21
24
.751
0
3
15
10
29
31
.781
0
0
20
11
4
27
.894
0
0
12
12
4
16
1.136
11
0
16
13
12
17
1.167
4
1
17
14
13
19
1.232
0
0
26
15
20
21
1.297
0
9
18
16
3
4
1.462
6
12
17
17
3
12
1.752
16
13
20
18
20
28
1.758
15
0
23
19
5
15
2.185
7
0
25
20
3
29
2.379
17
10
21
21
3
22
3.135
20
8
23
22
10
11
3.319
0
0
24
23
3
20
3.668
21
18
25
24
2
10
4.259
0
22
29
25
3
5
5.162
23
19
26
26
3
13
8.058
25
14
27
27
3
26
12.907
26
0
30
28
1
9
14.752
0
0
29
29
1
2
19.323
28
24
30
30
1
3
43.913
29
27
0
上表给出了反映聚类过程的聚类进度表。
它的每一行表示一次聚类,并给出聚类对象的名称,第一列对应的格中给出这次聚在一起的两个群间的距离。
可看出:
第一步湖北和湖南聚在一起,它们的相关系数为0.129;第二步辽宁和黑龙江聚在一起,它们的相关系数为0.231,第三步贵州和云南聚在一起,它们的相关系数为0.246,…,依次类推。
使用SortCases命令,对数据窗口中Ward法生成的分类变量CLU3_1进行排序,如表3-3所示。
表3-3:
Ward法聚类结果整理表
第一类
第二类
第三类
北京
上海
浙江
天津
内蒙古
辽宁
吉林
黑龙江
江苏
福建
山东
湖北
湖南
广东
河北甘肃
青海宁夏
新疆山西
安徽江西
河南广西
海南重庆
四川
贵州
云南
西藏
陕西
从表中分类我们可以清楚的看出:
第一类是北京、上海、浙江这几个经济发展水平很高的地区,这些地区的农村居民的衣着、交通和通讯、文教娱乐及服务、医疗保健等这几个项目的支出比例是这3类中最高的,这些消费项目是已经超越于日常生活必需品消费,因此这一类的农村居民生活水平是最高的。
第二类中的这些地区的农村居民的衣着、交通和通讯、文教娱乐用品及服务、医疗保健等这几个项目的支出比例在所有的消费中占的比例也非常高,仅次于第一类中的几个地区,农村居民的生活水平大部分已经达到了小康水平。
第三类中的地区的农村居民的生存性消费还是占主导地位,即食品、居住占主导,而精神消费、娱乐文化等消费欠缺,这一类中的农村居民生活水平已经解决了温饱,正在向小康迈进。
从分类中可以看出,生活水平较高的农村居民都是东部沿海经济较发达的省市,而西南部欠发达省市的农村居民生活水平相对较低,这很大原因是各地区经济发展不平衡,造成居民收入差异较大,使得贫困地区的居民可用于消费的资金不多,不敢消费。
图3-1:
树状聚类图
由上图中可以看出:
湖北和湖南两群之间的距离最短,他们首先聚在一起;在剩余的30类中(湖北和湖南第一步已聚在一起,算作一类),辽宁和黑龙江间距离最短,他们聚在一起,聚了两步,减少了2类,…,直到最后,由31个案例聚在一起聚成一个大群,直至此系统聚类过程完成。
四、判别分析
4.1判别分析的基本思想
判别分析是一种对观察对象进行分类的统计学方法,它与聚类分析不同,它在分析前就非常明确观察对象分为几个类别,该分析方法的目的就是从现有已知类别的观察对象中建立一个判别函数来,然后再用该判别函数去判别同质的未知类别的观察对象。
判别分析过程是基于对预测变量的线性组合,这些预测变量应能够充分体现各类别之间的差异。
判别分析从已确定类别样本中拟合判别函数,再把判别函数应用于相同变量所记录的新数据集,以判断新样本的类别归属常用的有Fisher判别和Bayes判别[]。
4.2判别分析的计算和分析
说明:
判别分析操作的数据在原始数据的基础上,再根据上文的聚类分析的结果,对31个地区分为3类进行分析。
表4-1:
组均值的均等性检验
组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
食品
.204
54.480
2
28
.000
衣着
.430
18.590
2
28
.000
居住
.396
21.388
2
28
.000
家庭设备及用品
.379
22.949
2
28
.000
交通通信
.327
28.815
2
28
.000
文教娱乐
.264
39.113
2
28
.000
医疗保健
.435
18.199
2
28
.000
其他
.296
33.357
2
28
.000
由表4-1为8个变量的组均值检验,由表可以看出所有的变量当中没有出现表达无差异的情况。
表4-2:
特征值
特征值
函数
特征值
方差的%
累积%
正则相关性
1
6.716a
97.1
97.1
.933
2
.203a
2.9
100.0
.410
a.分析中使用了前2个典型判别式函数。
表4-2为特征值表格,说明分析中一共提取了两个维度的Fisher判别函数,其中第一个解释了所有变异的97.1%,第二个解释了所有变异的2.9%。
表4-3:
标准化的典型判别函数系数
标准化的典型判别式函数系数
函数
1
2
食品
.972
.479
衣着
.383
.961
居住
.248
.081
家庭设备及用品
-.136
.335
交通通信
.147
-.565
文教娱乐
.235
-.851
医疗保健
.284
.600
其他
-.534
-.678
表4-3为标准化的典型判别函数系数,提供了两个判别函数中各个变量的标准化系数,可以用来判断两个函数受哪些变量的影响较大,可以看出第一函数受食品的影响较大,第二个函数受衣着的影响较大,同时可以根据该系数写出标准化的判别函数式,如下所示:
表4-4:
分类结果
分类结果b,c
g
预测组成员
合计
1
2
3
初始
计数
1
3
0
0
3
2
0
8
2
10
3
0
1
17
18
%
1
100.0
.0
.0
100.0
2
.0
80.0
20.0
100.0
3
.0
5.6
94.4
100.0
交叉验证a
计数
1
2
1
0
3
2
1
7
2
10
3
0
2
16
18
%
1
66.7
33.3
.0
100.0
2
10.0
70.0
20.0
100.0
3
.0
11.1
88.9
100.0
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的90.3%个进行了正确分类。
c.已对交叉验证分组案例中的80.6%个进行了正确分类。
表4-4所示为分类结果表格,该表的第一部分为使用普通方法对每天记录的判别结果,第二部分为刀切法的结果,两种方法的正确率分别为100%和66.7%。
可见该判别函数较为稳定。
五、因子分析和主成分分析
5.1因子分析的基本思想
因子分析是一种通过显在变量,通过具体指标评测抽象因子的分析方法。
因子分析的基本目的是用少数几个因子去描述多个变量之间的关系,被描述的变量一般都是能实际观测到的随机变量,而那些因子是不可观测的潜在变量。
因子分析的基本思想是根据相关性的大小把变量分组,使得组内的变量相关性较高,而不同组内的变量相关性较低。
每组变量代表一个基本结构,这些基本结构成为一个公共因子。
对于研究的问题就可以试图用最少数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量。
5.2因子分析的原理和方法
因子分析的出发点是用较少的相互独立的因子变量代替原来变量的大部分信息,可以用下面数学模型来表示:
式中,
为p个原有变量,是均值为0、标准差为1的标准化变量,而
为m个因子变量,m小于p,表示成矩阵形式为:
式中,F为公共因子,可以理解为高维空间中相互垂直的m个坐标轴;A为因子载荷矩阵,是第i个原有变量在第j个因子变量上的负荷。
5.3因子分析的计算和分析
表5-1:
KMO和Bartlett的检验
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.878
Bartlett的球形度检验
近似卡方
272.103
df
28
Sig.
.000
由表5-1可以得出KMO统计量为0.878,大于最低标准0.5,适合做因子分析。
Bartlett球形检验,拒绝单位相关阵的原假设,P<0.001,适合做因子分析。
表5-2:
主成分列表
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
6.405
80.063
80.063
6.405
80.063
80.063
2
.490
6.119
86.183
3
.363
4.543
90.726
4
.272
3.404
94.130
5
.214
2.673
96.803
6
.125
1.561
98.364
7
.075
.937
99.302
8
.056
.698
100.000
提取方法:
主成份分析。
由表5-2可以看出,选取1公共因子,第一个主成分的特征值大于1,贡献率为80.63%。
表5-3:
公因子方差比
公因子方差
初始
提取
食品
1.000
.822
衣着
1.000
.790
居住
1.000
.714
家庭设备及用品
1.000
.775
交通通信
1.000
.829
文教娱乐
1.000
.890
医疗保健
1.000
.676
其他
1.000
.910
提取方法:
主成份分析。
由表5-3的结果显示,每一个指标变量的共性方差都在0.5以上,且大多数都接近0.75,说明这个公因子能够较好地反应原始各项指标变量的大部分信息。
图5-1:
各成分的碎石图
如图5-1所示,结合特征根曲线的拐点及特征值,从上图可以看出,前面1个主成分的折现坡度比较陡,而后面的趋于平缓,该图从侧面说明了提取1个主成分为宜。
表5-4旋转前的因子载荷结果
成份矩阵a
成份
1
食品
.906
衣着
.889
居住
.845
家庭设备及用品
.880
交通通信
.910
文教娱乐
.943
医疗保健
.822
其他
.954
提取方法:
主成份。
a.已提取了1个成份。
用
表示8个变量,则根据表4-4可以得出以下的得分函数:
由于利用基于特征值抽取特征值大于1,所提取的成份只有一个,无法生成成份图。
故利用固定的因子数量提取3个因子,其他步骤同上,可得出以下结果:
表5-5:
成份矩阵
成份
1
2
3
食品
.906
-.159
.262
衣着
.889
-.128
-.341
居住
.845
.360
.204
家庭设备及用品
.880
-.266
.261
交通通信
.910
-.076
-.252
文教娱乐
.943
-.048
-.026
医疗保健
.822
.480
-.062
其他
.954
-.097
-.034
提取方法:
主成份。
a.已提取了3个成份。
由表5-5的成份矩阵可以得到因子载荷矩阵A,对应上文因子分析的数学模型部分,可以得到如下的因子分析模型:
即,
图5-2:
载荷散点图
图5-2是载荷散点图,这里为3个因子的三维因子载荷散点图,以3个因子为坐标,给出各原始变量在该坐标中的载荷散点图。
该图是旋转后因子载荷矩阵的图形化表示方式。
如果因子载荷矩阵比较复杂,则通过该图较容易解释。
表5-6:
成份得分协方差矩阵
成份得分协方差矩阵
成份
1
2
3
1
1.000
.000
.000
2
.000
1.000
.000
3
.000
.000
1.000
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
从协方差矩阵看,不用因子之间的数据为0,证明3个因子变量之间是不相关的。
5.4主成分分析的原理和方法
主成分分析的思想是利用降维思想,将多个互相关联的数值变量转化成少数几个互不相关的综合指标的统计方法。
这些综合指标就是原来多个变量的主成分,每个主成分都是原始变量的线性组合,并且各个主成分之间互不相关。
主成分分析的任务之一就是计算主成分,计算步骤是:
首先将原有的变量标准化,然后计算各变量之间的相关矩阵、该矩阵的特征根和特征向量,最后将特征根由大到小排列,分别计算出对应的主成分。
主成分的另一个任务是确定主成分的个数,确定方法主要有:
(1)累计贡献率:
当前k个主成分的累计贡献率达到某一特定值(一般采用70%以上)时,则保留前k个主成分。
(2)特征根:
一般选取特征根≥1的主成分。
六、分析和建议
综合以上分析可得出,我国农村居民消费水平和生活质量跟以前相比较有了显著提高,消费结构也相应发生了明显的变化,部分地区农村居民的生活水平已经实现了从传统的“温饱型”到“小康型”的全面改变。
但是我们从中也能发现我国农村居民消费存在着不少问题,主要表现在以下方面:
(1).农村居民的消费结构不均衡
所谓消费结构,是指“农村居民对各种消费资料和劳务消费的比例关系,它是农民消费状况和消费特点的重要指标,也能反映出农民的消费水平[]。
”主要包括食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐、居住、及其他商品和服务等8个结构支出。
而出现的问题主要存在以下两方面:
一、中国农村居民的总体消费水平偏低,消费结构有生存型消费的特征;二、交通、通讯、娱乐、教育消费大幅增加。
(2).各地区消费水平差距较大
由于各地区经济发展水平等方面存在差异,使得不同地区的农村居民收入水平不同,可有用于消费的资金多少不同。
我们从分析结果中可以看到,那些农村居民生活水平达到小康的地区,都是东部沿海经济较发达的省市,他们不再是为了解决温饱,而是往精神文化消费方面发展。
而中西部省市的农村居民的生活水平仅仅停留在解决基本生活问题,精神文化消费匮乏。
(3).农村居民消费心理存在的问题
所谓消费心理,是指消费者进行消费活动时所表现出的心理特征与心理活动的过程,消费者心理与行为是一种极其复杂的社会心理学现象,它不仅受消费者自身的需要、动机等心理因素的影响,而且受消费活动的外界影响。
对于农村消费者来说,他们的消费行为更是受到传统观念﹑现实环境﹑经济趋势等的制约。
主要表现在以下两个方面:
一、勤俭持家的传统心理,消费谨慎。
二、缺乏对消费的科学性合理性的认识,偏重于远期消费。
针对以上总结出现的问题,提出以下建议:
(1).提高收入,促进消费
提高农村居民收入,是扩大内需,启动消费最直接、最有效的办法之一。
只有当农村居民有可靠的收入保障他们才能放心的去消费。
而提升农民素质,是增加农民收入的关键。
作为农民自己要充分发挥主观能动性,主动学习知识和技能,不断提高自身素质,提高农民增收致富的本领。
政府有关部门要认真贯彻落实国家的各项扶农政策,大力调整农业结构,引导农村剩余劳动力转移,为农村居民就业增收提供途径。
(2).提高消费者素质,树立科学的消费观
消费者素质是特指人们为消费主体在消费行为上所具备的修养和能力。
这种能力主要包括审美鉴赏能力、识别挑选能力、质量监督能力和适度消费能力。
提高消费者素质,是优化消费结构的关键。
提高消费者素质,建立科学、健康的消费观念是一个长期的任务。
当前,要积极运用舆论工具,宣传消费知识,树立正确的消费观念和消费意识,把消费结构引向物质文化和精神文明相结合的方向,从而优化消费结构,拓宽消费领域。
(3).完善农村社会保障体系,促进农村消费市场发展
农村社会保障体系既是影响农村居民预期消费的重要因素,也是制约扩大农村即期消费的基本因素。
统筹城乡的和谐发展,加快完善农村居民的社会保障体系,有效地稳定农民支出预期,不仅可以增强国家对农村消费的调节功能,同时也有助于释放农民长期受到压抑的消费热情。
增加农村最低生活保障补贴;全面彻底普及九年义务教育,只有充分消除农民生活中的后顾之忧,提高农民整体保障水平,才能激发广大农民的消费欲望,促进农村消费市场的大力发展。
七、参考文献
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 分析 论文 聚类分析 判别分析 因子分析 成分