1、1 因子分析 因子分析的概念起源于 20 世纪 Karl Pearson 和 Chales Spearman 等人关于智力测验的统计分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,以较少的几个因子反映原有变量的大部分信息。它是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因
2、子之和来描述原来观测的每一分量。运用这种研究技术,我们可以方便地找出影响农村居民收入、消费及其结构的主要因素是哪些,以及它们的影响力(权重)。1.1 选取适合因子分析的原有变量 为研究长三角地区农村居民家庭人均纯收入和生活消费支出的差异性和相似性,选取2008 年长三角地区 16 个城市农村居民家庭人均纯收入和消费支出结构数据(表 1)2,使用 SPSS17.0 软件进行因子分析。首先考察原始数据内变量之间是否存在一定的线性关系,是否适合采用因子分析提取因子。由表 2 可知,除家庭设备用品及服务(X3)、娱乐文教服务(X6)和杂项商品与服务(X8)外,农村居民人均纯收入(Y)、农村居民人均消费
3、支出(X)、食品(X1)、衣着(X2)、 医疗保健(X4)、交通通讯(X5)和居住(X7)等 7 个变量之间相关系数值都较高(>0.3),-2- 呈较强的线性关系,能够从中提取公共因子,可以选取这 7 个原有变量适合进行因子分析。再用这 7 个原有变量进行 Bartlett 球度检验,得出的观测值为 111.408,相应的概率 p接近 0,说明相关系数矩阵与单位阵有显著差异,同时 KMO 值为 0.686,根据 Kaiser 给出的 KMO 度量标准可知原有这 7 个变量适合进行因子分析。表 2. 原有变量的相关系数矩阵 X Y X1 X2 X3 X4 X5 X6 X7 X8 X 1.0
4、00 Y 0.919 1.000 X1 0.955 0.823 1.000 X2 0.790 0.733 0.738 1.000 X3 0.290 0.177 0.358 0.205 1.000 X4 0.502 0.419 0.430 0.283 -0.036 1.000 X5 0.771 0.812 0.635 0.643 0.221 0.197 1.000 X6 0.129 0.189 0.076 0.354 0.272 -0.625 0.362 1.000 X7 0.773 0.735 0.700 0.413 -0.165 0.663 0.454 -0.326 1.000 X8 0.6
5、49 0.549 0.680 0.782 0.038 0.356 0.331 0.096 0.414 1.000 1.2 农村居民收入与消费支出指标的因子提取 根据上述分析,采用主成分分析法提取因子并选取特征根值大于 1 的特征根。分析结果如表 3。表 3 是因子分析的初始解,显示了 7 个变量的共同度数据。第 1 列是因子分析初始解下的变量共同度,原有变量的所有方差都可被解释,变量的共同度均为 1;第 2 列是按指定提取条件提取特征根时的共同度,可以看出,5 个变量的绝大部分信息(&83%)可被因子解释,信息丢失较少,2 个变量的信息丢失也小于 30%,因此本次因子提取的总体效果较为理想。由
6、此可以计算 7 个因子解释原有变量的总方差(表 4)。由表 4 可见,第 1 个因子的特征根值为 4.934,解释原有 7 个变量总方差的 78.486%,累计方差贡献率为 78.486%;第 2 个表 1. 长三角地区农村居民家庭人均纯收入与消费支出(2008)单位:元 地区 农村居民人均纯收入Y 生活消费支出X 食品 X1 衣着 X2家庭设备用品及服务X3 医疗保健X4 交通通讯X5 娱乐文教服务 X6 居住 X7 杂项商品与服务 X8 上海市 11385 9115 3728.04 464.87 501.33 692.74 884.16 847.70 1804.77 182.30南京市 8
7、951 7033 2672.54 506.38 429.01 309.45 787.70 1272.97 928.36 133.63苏州市 11785 8443 2988.82 565.68 422.15 430.59 1291.78 1452.20 1114.48 168.86无锡市 11280 7943 2827.71 571.90 357.44 420.98 969.05 1215.28 1437.68 142.97常州市 10171 8128 3064.26 560.83 487.68 560.83 1032.26 1081.02 1162.30 178.82镇江市 8703 6580
8、 2585.94 427.70 776.44 394.80 763.28 1105.44 407.96 118.44南通市 7811 5653 2170.75 322.22 327.87 457.89 587.91 1028.85 638.79 118.71扬州市 7450 5448 2113.82 348.67 315.98 277.85 495.77 904.37 866.23 125.30泰州市 7338 5075 1923.43 340.03 263.90 456.75 461.83 766.33 720.65 142.10杭州市 10692 8446 3032.11 523.65 3
9、88.52 1064.20 827.71 591.22 1858.12 160.47宁波市 11450 9174 3752.17 678.88 431.18 541.27 1165.10 981.62 1394.45 220.18嘉兴市 11538 7811 2890.07 429.61 390.55 507.72 937.32 945.13 1546.58 164.03湖州市 10751 7046 2466.10 500.27 380.48 613.00 1028.72 901.89 1021.67 133.87绍兴市 10950 7877 3158.68 441.11 425.36 582
10、.90 953.12 827.01 1370.60 110.28舟山市 11367 8427 3362.37 699.44 438.20 665.73 758.43 1095.51 1162.93 252.81台州市 9180 7090 2573.67 446.67 340.32 673.55 942.97 779.90 1184.03 155.98/ -3- 中国科技论文在线因子的特征根值为 1.048,解释原有 7 个变量总方差的 14.969%,累计方差贡献率为 85.456%。总体上,原有变量的信息丢失较少,分析较果理想。同时可看到,第 1 个因子的特征根值很高,对解释原有变量的贡献最
11、大,第 3 个以后的因子特征根值都较小,对解释原有变量的贡献很小,因此提取 2 个因子是合适的。表 3. 因子分析的初始解 初始 提取 农村居民人均生活消费支出 X 1.000 0.978 农村居民人均纯收入 Y 1.000 0.906 食品 X1 1.000 0.847 衣着 X2 1.000 0.751 医疗保健 X4 1.000 0.866 交通通讯 X5 1.000 0.784 居住 X7 1.000 0.849 提取方法:主成份分析。表 4. 因子解释原有变量的总方差 初始特征值 提取平方和载入 旋转平方和载入 成份 合计 方差的 % 累积 % 合计 方差的 % 累积 % 合计 方差
12、的 % 累积 %1 4.934 70.486 70.486 4.934 70.486 70.486 3.869 55.276 55.276 2 1.048 14.969 85.456 1.048 14.969 85.456 2.113 30.179 85.456 3 0.421 6.009 91.464 4 0.340 4.862 96.326 5 0.164 2.349 98.675 6 0.085 1.212 99.887 7 0.008 0.113 100.000 表 5. 因子载荷矩阵 成份 1 2 农村居民人均生活消费支出 X 0.988 -0.043 农村居民人均纯收入 Y 0.9
13、45 -0.116 食品 X1 0.919 -0.046 居住 X7 0.803 0.452 衣着 X2 0.800 -0.332 交通通讯 X5 0.788 -0.403 医疗保健 X4 0.559 0.744 提取方法 :主成分分析法。已提取了 2 个成份。表 5 显示了因子载荷矩阵,是因子分析的核心内容。根据表 5 可以写出长三角地区农村居民收入与消费支出的因子分析模型。农村居民人均生活消费支出 X=0.988f1-0.043f2 农村居民人均纯收入 Y=0.945f1-0.116食品 X1=0.919f1-0.046居住 X7=0.803f1+0.452衣着 X2=0.800f1-0.
14、332交通通讯 X5=0.788f1-0.403医疗保健 X4=0.559f1+0.744可以看出,X、Y、X1、X7、X2、X5等 6 个变量在第 1 个因子上的载荷都很高,意味着-4- 它们与第 1 个因子的相关程度高,第 1 个因子很重要,与第 2 个因子的相关性小;而 X4与第 2 个因子的相关程度高一些,这 2 个因子的实际含义比较模糊。采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。结果如表 6,交通通讯 X5、农村居民人均纯收入 Y、农村居民人均生活消费支出 X、衣着 X2、食品 X1在第 1 个因子上有较高载荷,第 1 个因子主要解释了这 5 个变量,可解释为基
15、本生活消费因子;医疗保健 X4、居住 X7在第 2 个因子上有较高的载荷,第 2 个因子主要解释了这 2 个变量,可解释为提高生活消费因子,与旋转前相比,因子含义较为清晰。再计算 2 个因子的协方差矩阵,可以看出,2 个因子没有线性相关性,实现了因子分析的设计目标。表 6.旋转后的因子载荷矩阵 成份 1 2 交通通讯 X5 0.883 0.069 农村居民人均纯收入 Y 0.866 0.396 农村居民人均生活消费支出 X 0.865 0.480 衣着 X2 0.856 0.136 食品 X1 0.807 0.442 医疗保健 X4 0.087 0.927 居住 X7 0.448 0.805
16、旋转法 :具有 Kaiser 标准化的正交旋转法。旋转在 3 次迭代后收敛。1.3 长三角地区农村居民收入与消费支出综合评价 采用回归法估计因子得分系数,结果如表 7。根据表 7 可以写出以下 2 个因子得分函数:F1=0.192X+0.221Y+0.182X1+0.304X2-0.275X4+0.338X5-0.087X7 F2=0.070X+0.006Y+0.060X1-0.185X2+0.664X4-0.244X5+0.452X7 表 7. 因子得分系数矩阵 农村居民人均生活消费支出 X 0.192 0.070 农村居民人均纯收入 Y 0.221 0.006 食品 X1 0.182 0.
17、060 衣着 X2 0.304 -0.185 医疗保健 X4 -0.275 0.664 交通通讯 X5 0.338 -0.244 居住 X7 -0.087 0.452 主成分分析法;利用上述因子得分函数对各地进行对比分析。计算各地区 2 个因子的得分值于表 8。结果表明:宁波、苏州、上海的第 1 个因子得分列前 3 位,表明反映基本生活消费水平的农民人均纯收入、人均消费支出及衣、食、行消费水平远远高于其它地区;杭州、上海、嘉兴的第 2 因子得分列前 3 位,表明反映提高生活消费水平的医疗保健、居住消费水平远远高于其它地区。某城市 F1、F2 的得分名次相近,说明基本生活消费水平与提高生活消费水
18、平比较协调;得分名次相差较大,说明提高生活消费水平超前或者滞后于基本生活水平。苏州的第1 个因子得分为第 2 名,而第 2 个因子得分为第 11 名,说明苏州农村居民的基本生活消费水平较高,但未能在医疗保健、住房等方面提高消费水平。杭州的第 1 个因子得分为第 9-5- 名,处于中等,而第 2 个因子得分为第 1 名,说明杭州农村居民消费观念比较超前,在住房、医疗保健等方面消费水平较高。上海的 2 个因子得分均较高,作为长三角中心城市,农村经济比较发达,农民的收入、消费水平都位于前列。处于苏中地区的南通、扬州、泰州 3 市的农村经济发展水平在长三角地区相对落后,反映在 2 个因子的得分上均排在
19、后面,说明苏中地区农村居民的人均纯收入、消费水平均远远低于长三角其它地区。这里需要指出的是,长三角地区农村居民消费结构中,家庭设备用品及服务、娱乐文教服务和杂项商品与服务三项反映提高生活消费水平的变量与其它变量(特别是与农村居民人均纯收入和农村居民生活消费支出)相关程度较差,未能列入因子分析的原有变量中,说明长三角地区农村消费水平还有待提高,在农民人均纯收入和消费支出水平总体上升的情况下,反映消费结构提升的家庭设备用品及服务和娱乐文教服务消费还未真正启动。表 8. 各地区 F2因子得分 地区 F1 名次 F2 名次 上海市 5037.32 3 1904.04 2 南京市 4069.23 11
20、1045.58 12 苏州市 5162.72 2 1210.86 11 无锡市 4793.13 5 1380.46 7 常州市 4630.11 8 1355.97 9 镇江市 3901.31 13 849.15 16 南通市 3321.86 14 962.53 14 扬州市 3198.98 15 943.45 15 泰州市 3017.33 16 968.11 13 杭州市 4521.05 9 2084.96 1 宁波市 5304.77 1 1515.83 4 嘉兴市 4748.84 6 1517.40 3 湖州市 4419.96 10 1230.96 10 绍兴市 4683.93 7 1499
21、.90 6 舟山市 4926.77 4 1513.07 5 台州市 4024.74 12 1375.50 8 平均分 4360.13 1334.80 2 K-Means 聚类分析 2.1 K-Means 聚类分析的一般步骤 K-Means 聚类也称快速聚类,它是将数据看成 K 维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率3。其一般步骤为:指定聚类数目 K。在 K-Means 聚类中,首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。确定 K 个初始类中心,要 SPSS 中初始类中心点的指定方式有两种:一是用户指定方式;二是 SPSS
22、 系统根据样本数据的具体情况选择 K 个有一定代表性的样本作为初始类中心点。根据距离最近原则进行分类,依次计算每个样本数据点到 K 个类中心点的欧氏距离,并按照距 K 个类中心点距离最短的原则将所有样本分派,形成 K 个分类。重新确定 K 个类中心,中心点的确定原则是,依次计算各类中 K 个变量的均值,并以均值点作为 K 个类的中心点。判断是否已满足终止聚类分析的条件。可见,K-Means 快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。?-6- 2.2 长三角地区农村居民收入与消费支出的 K-Means 聚类分析 利用 SPSS17.0 软件和
23、2008 年长三角地区农村居民家庭人均纯收入与消费支出数据(表1),对长三角各地区进行 K-Means 聚类分析,要求分成 3 类,初始中心点由 SPSS 自行确定。系统确定的 3 个初始类中心点的数据分别是(9115.00,11385.00,3728.04,464.87,501.33,692.74,884.16,847.70,1804.77,182.30),(5075.00,7338.00,1923.43,340.03,263.90,456.75,461.83,766.33,720.65,142.10),(7090.00,9180.00,2573.67,446.67,340.32,673.5
24、5,942.97,779.90,1184.03,155.98)。可见,初始聚类后第 1 类各指数均是最优的,第 3 类次之,第 2 类各指数均最不理想。经过第 1 次迭代后 3 个类的中心点分别偏移了 969.057,431.418,570.522,第 1 类中心点偏移最大。第 2 次迭代后,3 个类的中心点分别偏移了 135.893,0.000,308.284,第 3 类中心第 3 次迭代后,3 个类的中心点偏移均为 0.000,小于指定的判断标准(0.02),聚类分析结束。经过 3次迭代后,3 个最终类中心点的数据分别是(8373.78,11179.78,3200.47,548.44,42
25、6.93,607.44,979.88,1004.08,1427.99,175.64),(5392.00,7533.00,2069.33,336.97,302.58,397.50,515.17,899.85,741.89,128.70),(6937.25,9396.25,2574.56,470.26,481.56,497.70,880.67,1015.05,885.50,135.48)。仍然可见,第 1 类指数均是最优的,第 3 类次之,第 2 类指数均是最不理想。长三角各地区农村居民收入与消费支出的 K-Means 聚类分析结果见表 9。表 9 显示了 3个类的类成员情况。第 1类(上游水平)
26、有 9个城市:上海、苏州、无锡、常州、杭州、宁波、嘉兴、绍兴和舟山;第 2 类(下游水平)有 3 个城市:南通、扬州和泰州;第 3 类(中游水平)有 4 个城市:南京、镇江、湖州和台州。这个结果与上述因子分析中,各城市的 2个因子得分排名基本吻合,特别是苏中的南通、扬州、泰州三市的 F2 得分排名和 K-Means聚类分析层次基本一致,均处于长三角落后的位置。表 9. 长三角各地区农村居民收入与消费支出的 K-Means 聚类分析结果 案例号 地区 聚类 距离 1 上海市 1 1032.122 2 南京市 3 577.517 3 苏州市 1 918.644 4 无锡市 1 648.534 5
27、常州市 1 1087.140 6 镇江市 3 978.772 7 南通市 2 439.154 8 扬州市 2 206.166 9 泰州市 2 431.418 10 杭州市 1 927.931 11 宁波市 1 1037.824 12 嘉兴市 1 765.678 13 湖州市 3 1391.625 14 绍兴市 1 594.214 15 舟山市 1 473.323 16 台州市 3 519.847 通过对各指数在不同类的均值进行显著性测定,结果见表 13。家庭设备用品及服务 X3、医疗保健 X4、娱乐文教服务 X6和杂项商品与服务 X8等 4 个指数的均值在 3 类中的差异不显著。其余指数的均值在 3 类中的差异达到显著水平。与前面因子分析结果类似,反映消费-7- 水平提高的一些消费类型如家庭设备用品消费、娱乐文教消