长三角地区农村居民收入与消费支出差异实证研究Word格式.docx
- 文档编号:16204960
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:19
- 大小:120.30KB
长三角地区农村居民收入与消费支出差异实证研究Word格式.docx
《长三角地区农村居民收入与消费支出差异实证研究Word格式.docx》由会员分享,可在线阅读,更多相关《长三角地区农村居民收入与消费支出差异实证研究Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
1因子分析
因子分析的概念起源于20世纪KarlPearson和ChalesSpearman等人关于智力测验的统
计分析。
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,
以较少的几个因子反映原有变量的大部分信息。
它是从研究变量内部相关的依赖关系
出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析
方法。
它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同
一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本
结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的
线性函数与特殊因子之和来描述原来观测的每一分量。
运用这种研究技术,我们可以
方便地找出影响农村居民收入、消费及其结构的主要因素是哪些,以及它们的影响力
(权重)。
1.1选取适合因子分析的原有变量
为研究长三角地区农村居民家庭人均纯收入和生活消费支出的差异性和相似性,选取
2008年长三角地区16个城市农村居民家庭人均纯收入和消费支出结构数据(表1)[2],使
用SPSS17.0软件进行因子分析。
首先考察原始数据内变量之间是否存在一定的线性关系,
是否适合采用因子分析提取因子。
由表2可知,除家庭设备用品及服务(X3)、娱乐文教服
务(X6)和杂项商品与服务(X8)外,农村居民人均纯收入(Y)、农村居民人均消费支出
(X)、食品(X1)、衣着(X2)、
医疗保健(X4)、交通通讯(X5)和居住(X7)等7个变量之间相关系数值都较高(&
gt;
0.3),
-2-
呈较强的线性关系,能够从中提取公共因子,可以选取这7个原有变量适合进行因子分析。
再用这7个原有变量进行Bartlett球度检验,得出的观测值为111.408,相应的概率p接近0,
说明相关系数矩阵与单位阵有显著差异,同时KMO值为0.686,根据Kaiser给出的KMO
度量标准可知原有这7个变量适合进行因子分析。
表2.原有变量的相关系数矩阵
XYX1X2X3X4X5X6X7X8
X1.000
Y0.9191.000
X10.9550.8231.000
X20.7900.7330.7381.000
X30.2900.1770.3580.2051.000
X40.5020.4190.4300.283-0.0361.000
X50.7710.8120.6350.6430.2210.1971.000
X60.1290.1890.0760.3540.272-0.6250.3621.000
X70.7730.7350.7000.413-0.1650.6630.454-0.3261.000
X80.6490.5490.6800.7820.0380.3560.3310.0960.4141.000
1.2农村居民收入与消费支出指标的因子提取
根据上述分析,采用主成分分析法提取因子并选取特征根值大于1的特征根。
分析结果
如表3。
表3是因子分析的初始解,显示了7个变量的共同度数据。
第1列是因子分析初始
解下的变量共同度,原有变量的所有方差都可被解释,变量的共同度均为1;
第2列是按指
定提取条件提取特征根时的共同度,可以看出,5个变量的绝大部分信息(&
83%)可被因
子解释,信息丢失较少,2个变量的信息丢失也小于30%,因此本次因子提取的总体效果较
为理想。
由此可以计算7个因子解释原有变量的总方差(表4)。
由表4可见,第1个因子的特
征根值为4.934,解释原有7个变量总方差的78.486%,累计方差贡献率为78.486%;
第2个
表1.长三角地区农村居民家庭人均纯收入与消费支出(2008)单位:
元
地区
农村居
民人均
纯收入
Y
生活消
费支出
X
食品X1衣着X2
家庭设
备用品
及服务
X3
医疗保健
X4
交通通讯
X5
娱乐文教
服务X6居住X7
杂项商
品与服
务X8
上海市1138591153728.04464.87501.33692.74884.16847.701804.77182.30
南京市895170332672.54506.38429.01309.45787.701272.97928.36133.63
苏州市1178584432988.82565.68422.15430.591291.781452.201114.48168.86
无锡市1128079432827.71571.90357.44420.98969.051215.281437.68142.97
常州市1017181283064.26560.83487.68560.831032.261081.021162.30178.82
镇江市870365802585.94427.70776.44394.80763.281105.44407.96118.44
南通市781156532170.75322.22327.87457.89587.911028.85638.79118.71
扬州市745054482113.82348.67315.98277.85495.77904.37866.23125.30
泰州市733850751923.43340.03263.90456.75461.83766.33720.65142.10
杭州市1069284463032.11523.65388.521064.20827.71591.221858.12160.47
宁波市1145091743752.17678.88431.18541.271165.10981.621394.45220.18
嘉兴市1153878112890.07429.61390.55507.72937.32945.131546.58164.03
湖州市1075170462466.10500.27380.48613.001028.72901.891021.67133.87
绍兴市1095078773158.68441.11425.36582.90953.12827.011370.60110.28
舟山市1136784273362.37699.44438.20665.73758.431095.511162.93252.81
台州市918070902573.67446.67340.32673.55942.97779.901184.03155.98
//
-3-
中国科技论文在线
因子的特征根值为1.048,解释原有7个变量总方差的14.969%,累计方差贡献率为85.456%。
总体上,原有变量的信息丢失较少,分析较果理想。
同时可看到,第1个因子的特征根值很
高,对解释原有变量的贡献最大,第3个以后的因子特征根值都较小,对解释原有变量的贡
献很小,因此提取2个因子是合适的。
表3.因子分析的初始解
初始提取
农村居民人均生活消费支出X1.0000.978
农村居民人均纯收入Y1.0000.906
食品X11.0000.847
衣着X21.0000.751
医疗保健X41.0000.866
交通通讯X51.0000.784
居住X71.0000.849
提取方法:
主成份分析。
表4.因子解释原有变量的总方差
初始特征值提取平方和载入旋转平方和载入成份合计方差的%累积%合计方差的%累积%合计方差的%累积%
14.93470.48670.4864.93470.48670.4863.86955.27655.276
21.04814.96985.4561.04814.96985.4562.11330.17985.456
30.4216.00991.464
40.3404.86296.326
50.1642.34998.675
60.0851.21299.887
70.0080.113100.000
表5.因子载荷矩阵
成份
12
农村居民人均生活消费支出X0.988-0.043
农村居民人均纯收入Y0.945-0.116
食品X10.919-0.046
居住X70.8030.452
衣着X20.800-0.332
交通通讯X50.788-0.403
医疗保健X40.5590.744
提取方法:
主成分分析法。
已提取了2个成份。
表5显示了因子载荷矩阵,是因子分析的核心内容。
根据表5可以写出长三角地区农村
居民收入与消费支出的因子分析模型。
农村居民人均生活消费支出X=0.988<
f1-0.043<
f2
农村居民人均纯收入Y=0.945<
f1-0.116<
食品X1=0.919<
f1-0.046<
居住X7=0.803<
f1+0.452<
衣着X2=0.800<
f1-0.332<
交通通讯X5=0.788<
f1-0.403<
医疗保健X4=0.559<
f1+0.744<
可以看出,X、Y、X1、X7、X2、X5等6个变量在第1个因子上的载荷都很高,意味着
-4-
它们与第1个因子的相关程度高,第1个因子很重要,与第2个因子的相关性小;
而X4与
第2个因子的相关程度高一些,这2个因子的实际含义比较模糊。
采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。
结果如表6,
交通通讯X5、农村居民人均纯收入Y、农村居民人均生活消费支出X、衣着X2、食品X1
在第1个因子上有较高载荷,第1个因子主要解释了这5个变量,可解释为基本生活消费因
子;
医疗保健X4、居住X7在第2个因子上有较高的载荷,第2个因子主要解释了这2个变
量,可解释为提高生活消费因子,与旋转前相比,因子含义较为清晰。
再计算2个因子的协
方差矩阵,可以看出,2个因子没有线性相关性,实现了因子分析的设计目标。
表6.旋转后的因子载荷矩阵
成份
12
交通通讯X50.8830.069
农村居民人均纯收入Y0.8660.396
农村居民人均生活消费支出X0.8650.480
衣着X20.8560.136
食品X10.8070.442
医疗保健X40.0870.927
居住X70.4480.805
旋转法:
具有Kaiser标准化的正交旋转法。
旋转在3次迭代后收敛。
1.3长三角地区农村居民收入与消费支出综合评价
采用回归法估计因子得分系数,结果如表7。
根据表7可以写出以下2个因子得分函数:
F1=0.192X+0.221Y+0.182X1+0.304X2-0.275X4+0.338X5-0.087X7
F2=0.070X+0.006Y+0.060X1-0.185X2+0.664X4-0.244X5+0.452X7
表7.因子得分系数矩阵
农村居民人均生活消费支出X0.1920.070
农村居民人均纯收入Y0.2210.006
食品X10.1820.060
衣着X20.304-0.185
医疗保健X4-0.2750.664
交通通讯X50.338-0.244
居住X7-0.0870.452
主成分分析法;
利用上述因子得分函数对各地进行对比分析。
计算各地区2个因子的得分值于表8。
结
果表明:
宁波、苏州、上海的第1个因子得分列前3位,表明反映基本生活消费水平的农民
人均纯收入、人均消费支出及衣、食、行消费水平远远高于其它地区;
杭州、上海、嘉兴的
第2因子得分列前3位,表明反映提高生活消费水平的医疗保健、居住消费水平远远高于其
它地区。
某城市<
F1、<
F2的得分名次相近,说明基本生活消费水平与提高生活消费水平比较
协调;
得分名次相差较大,说明提高生活消费水平超前或者滞后于基本生活水平。
苏州的第
1个因子得分为第2名,而第2个因子得分为第11名,说明苏州农村居民的基本生活消费
水平较高,但未能在医疗保健、住房等方面提高消费水平。
杭州的第1个因子得分为第9
-5-
名,处于中等,而第2个因子得分为第1名,说明杭州农村居民消费观念比较超前,在住房、
医疗保健等方面消费水平较高。
上海的2个因子得分均较高,作为长三角中心城市,农村经
济比较发达,农民的收入、消费水平都位于前列。
处于苏中地区的南通、扬州、泰州3市的
农村经济发展水平在长三角地区相对落后,反映在2个因子的得分上均排在后面,说明苏中
地区农村居民的人均纯收入、消费水平均远远低于长三角其它地区。
这里需要指出的是,长三角地区农村居民消费结构中,家庭设备用品及服务、娱乐文教
服务和杂项商品与服务三项反映提高生活消费水平的变量与其它变量(特别是与农村居民人
均纯收入和农村居民生活消费支出)相关程度较差,未能列入因子分析的原有变量中,说明
长三角地区农村消费水平还有待提高,在农民人均纯收入和消费支出水平总体上升的情况
下,反映消费结构提升的家庭设备用品及服务和娱乐文教服务消费还未真正启动。
表8.各地区<
F2因子得分
地区<
F1名次<
F2名次
上海市5037.3231904.042
南京市4069.23111045.5812
苏州市5162.7221210.8611
无锡市4793.1351380.467
常州市4630.1181355.979
镇江市3901.3113849.1516
南通市3321.8614962.5314
扬州市3198.9815943.4515
泰州市3017.3316968.1113
杭州市4521.0592084.961
宁波市5304.7711515.834
嘉兴市4748.8461517.403
湖州市4419.96101230.9610
绍兴市4683.9371499.906
舟山市4926.7741513.075
台州市4024.74121375.508
平均分4360.131334.80
2K-Means聚类分析
2.1K-Means聚类分析的一般步骤
K-Means聚类也称快速聚类,它是将数据看成K维空间上的点,以距离作为测度个体
“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率[3]。
其一般步骤为:
①指
定聚类数目K。
在K-Means聚类中,首先要求用户自行给出需要聚成多少类,最终也只能
输出关于它的唯一解。
②确定K个初始类中心,要SPSS中初始类中心点的指定方式有两种:
一是用户指定方式;
二是SPSS系统根据样本数据的具体情况选择K个有一定代表性的样本
作为初始类中心点。
③根据距离最近原则进行分类,依次计算每个样本数据点到K个类中
心点的欧氏距离,并按照距K个类中心点距离最短的原则将所有样本分派,形成K个分类。
④重新确定K个类中心,中心点的确定原则是,依次计算各类中K个变量的均值,并以均
值点作为K个类的中心点。
⑤判断是否已满足终止聚类分析的条件。
可见,K-Means快速
聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到
稳定为止。
?
-6-
2.2长三角地区农村居民收入与消费支出的K-Means聚类分析
利用SPSS17.0软件和2008年长三角地区农村居民家庭人均纯收入与消费支出数据(表
1),对长三角各地区进行K-Means聚类分析,要求分成3类,初始中心点由SPSS自行确
定。
系统确定的3个初始类中心点的数据分别是(9115.00,11385.00,3728.04,464.87,501.33,
692.74,884.16,847.70,1804.77,182.30),(5075.00,7338.00,1923.43,340.03,263.90,
456.75,461.83,766.33,720.65,142.10),(7090.00,9180.00,2573.67,446.67,340.32,
673.55,942.97,779.90,1184.03,155.98)。
可见,初始聚类后第1类各指数均是最优的,
第3类次之,第2类各指数均最不理想。
经过第1次迭代后3个类的中心点分别偏移了969.057,431.418,570.522,第1类中心
点偏移最大。
第2次迭代后,3个类的中心点分别偏移了135.893,0.000,308.284,第3类中心
第3次迭代后,3个类的中心点偏移均为0.000,小于指定的判断标准(0.02),
聚类分析结束。
经过3次迭代后,3个最终类中心点的数据分别是(8373.78,11179.78,3200.47,548.44,
426.93,607.44,979.88,1004.08,1427.99,175.64),(5392.00,7533.00,2069.33,336.97,
302.58,397.50,515.17,899.85,741.89,128.70),(6937.25,9396.25,2574.56,470.26,
481.56,497.70,880.67,1015.05,885.50,135.48)。
仍然可见,第1类指数均是最优的,
第3类次之,第2类指数均是最不理想。
长三角各地区农村居民收入与消费支出的K-Means聚类分析结果见表9。
表9显示了3
个类的类成员情况。
第1类(上游水平)有9个城市:
上海、苏州、无锡、常州、杭州、宁
波、嘉兴、绍兴和舟山;
第2类(下游水平)有3个城市:
南通、扬州和泰州;
第3类(中
游水平)有4个城市:
南京、镇江、湖州和台州。
这个结果与上述因子分析中,各城市的2
个因子得分排名基本吻合,特别是苏中的南通、扬州、泰州三市的<
F2得分排名和K-Means
聚类分析层次基本一致,均处于长三角落后的位置。
表9.长三角各地区农村居民收入与消费支出的K-Means聚类分析结果
案例号地区聚类距离
1上海市11032.122
2南京市3577.517
3苏州市1918.644
4无锡市1648.534
5常州市11087.140
6镇江市3978.772
7南通市2439.154
8扬州市2206.166
9泰州市2431.418
10杭州市1927.931
11宁波市11037.824
12嘉兴市1765.678
13湖州市31391.625
14绍兴市1594.214
15舟山市1473.323
16台州市3519.847
通过对各指数在不同类的均值进行显著性测定,结果见表13。
家庭设备用品及服务X3、
医疗保健X4、娱乐文教服务X6和杂项商品与服务X8等4个指数的均值在3类中的差异不
显著。
其余指数的均值在3类中的差异达到显著水平。
与前面因子分析结果类似,反映消费
-7-
水平提高的一些消费类型如家庭设备用品消费、娱乐文教消
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 长三角 地区 农村居民 收入 消费 支出 差异 实证 研究