多元统计分析案例分析docx.docx
- 文档编号:27330755
- 上传时间:2023-06-29
- 格式:DOCX
- 页数:16
- 大小:173.06KB
多元统计分析案例分析docx.docx
《多元统计分析案例分析docx.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例分析docx.docx(16页珍藏版)》请在冰豆网上搜索。
多元统计分析案例分析docx
精品资料
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:
为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:
农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中抽取30个样本,指标数据如下:
地区
农产品价格指数(上年=100)
农村住宅投资
(亿元)
农村居民消费水平(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入(元)
耕地面积2008
(万公顷)
农村私营企业就业人数(万人)
北京
98.27
93.04
12886
9254.8
13262
231.7
153.9
天津
103.03
48.31
7814
4936.7
10075
441.1
8.0
河北
99.70
441.75
3867
3844.9
5958
6317.3
80.9
山西
100.43
168.71
4500
3663.9
4736
4055.8
51.7
内蒙古
99.83
33.17
4486
4460.8
5530
7147.2
18.4
辽宁
102.90
162.05
5739
4489.5
6908
4085.3
99.5
吉林
103.77
71.65
4663
4147.4
6237
5534.6
21.2
黑龙江
98.07
126.45
4536
4391.2
6211
11830.1
42.8
上海
102.23
2.12
13609
10210.5
13978
244.0
258.4
江苏
99.92
284.55
8196
6542.9
9118
4763.8
569.8
浙江
100.25
513.75
9878
8928.9
11303
1920.9
398.3
安徽
99.08
412.48
4447
4013.3
5285
5730.2
105.9
福建
98.04
176.35
6879
5498.3
7427
1330.1
113.1
江西
96.81
236.53
4397
3911.6
5789
2827.1
173.2
山东
101.23
566.90
5733
4807.2
6990
7515.3
273.6
河南
99.07
729.47
4061
3682.2
5524
7926.4
137.7
湖北
96.30
210.06
4758
4090.8
5832
4664.1
66.4
湖南
90.61
298.41
4513
4310.4
5622
3789.4
104.5
广东
94.95
337.44
5880
5515.6
7890
2830.7
124.4
广西
89.25
248.80
3561
3455.3
4543
4217.5
89.0
海南
101.91
26.22
3846
3446.2
5275
727.5
5.3
重庆
88.99
80.12
3652
3624.6
5277
2235.9
36.7675
四川
96.94
456.10
4748
3897.5
5087
5947.4
140.3
贵州
96.11
137.22
2926
2852.5
3472
4485.3
25.4
云南
96.50
158.97
3603
3398.3
3952
6072.1
41.3
陕西
95.83
151.79
3683
3793.8
4105
4050.3
1.7
甘肃
100.22
97.33
2975
2942.0
3425
4658.8
22.0
青海
94.61
63.63
3684
3863
542.7
10.5
11.4
宁夏
99.39
29.51
3894
4675
1107.1
43.6
16.7
新疆
92.87
79.35
3590
3457.9
4643
4124.6
18.7
数据来源:
《中国统计年鉴2010》.
2、将数据进行标准化变换:
地区
农产品价格指数(上年=100)
农村住宅投资
(亿元)
农村居民消费水平(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入(元)
耕地面积2008
(万公顷)
农村私营企业就业人数(万人)
北京
0.09
-0.67
2.82
2.53
2.37
-1.36
0.37
天津
1.33
-0.91
0.92
0.15
1.30
-1.29
-0.78
河北
0.47
1.24
-0.56
-0.46
-0.07
0.84
-0.21
山西
0.65
-0.25
-0.33
-0.56
-0.48
0.02
-0.44
内蒙古
0.50
-0.99
-0.33
-0.12
-0.21
1.15
-0.70
辽宁
1.30
-0.29
0.14
-0.10
0.25
0.03
-0.06
吉林
1.52
-0.78
-0.26
-0.29
0.02
0.56
-0.68
黑龙江
0.04
-0.48
-0.31
-0.15
0.01
2.84
-0.51
上海
1.12
-1.16
3.09
3.06
2.60
-1.36
1.20
江苏
0.52
0.38
1.06
1.04
0.98
0.28
3.66
浙江
0.61
1.64
1.69
2.35
1.71
-0.75
2.31
安徽
0.30
1.08
-0.35
-0.36
-0.30
0.63
-0.01
福建
0.04
-0.21
0.57
0.46
0.42
-0.97
0.05
江西
-0.28
0.12
-0.36
-0.42
-0.13
-0.42
0.52
山东
0.86
1.93
0.14
0.08
0.27
1.28
1.32
河南
0.30
2.82
-0.49
-0.55
-0.22
1.43
0.24
湖北
-0.42
-0.03
-0.23
-0.32
-0.11
0.24
-0.32
湖南
-1.89
0.46
-0.32
-0.20
-0.18
-0.07
-0.02
广东
-0.77
0.67
0.19
0.47
0.57
-0.42
0.14
广西
-2.24
0.19
-0.68
-0.67
-0.54
0.08
-0.14
海南
1.04
-1.03
-0.57
-0.68
-0.30
-1.18
-0.81
重庆
-2.31
-0.74
-0.64
-0.58
-0.30
-0.64
-0.56
四川
-0.25
1.32
-0.23
-0.43
-0.36
0.71
0.26
贵州
-0.46
-0.42
-0.92
-1.00
-0.90
0.18
-0.65
云南
-0.36
-0.31
-0.66
-0.70
-0.74
0.75
-0.52
陕西
-0.54
-0.34
-0.63
-0.48
-0.69
0.02
-0.83
甘肃
0.60
-0.64
-0.90
-0.96
-0.92
0.24
-0.67
青海
-0.85
-0.83
-0.63
-0.45
-1.88
-1.44
-0.76
宁夏
0.39
-1.01
-0.55
0.00
-1.69
-1.43
-0.71
新疆
-1.30
-0.74
-0.67
-0.67
-0.51
0.05
-0.70
3、用K-均值聚类法对样本进行分类如下:
聚类成员
案例号
地区
聚类
距离
1
北京
1
1069.19
2
天津
2
3060.35
3
河北
3
920.65
4
山西
4
1506.42
5
内蒙古
3
577.12
6
辽宁
2
2453.89
7
吉林
3
1487.95
8
黑龙江
3
5006.41
9
上海
1
2094.38
10
江苏
2
2853.42
11
浙江
1
3015.14
12
安徽
3
1204.49
13
福建
2
1612.46
14
江西
4
1880.40
15
山东
3
2088.55
16
河南
3
1282.27
17
湖北
3
2230.15
18
湖南
4
2053.35
19
广东
2
1119.98
20
广西
4
1412.14
21
海南
4
2541.05
22
重庆
4
1423.51
23
四川
3
1138.14
24
贵州
4
2025.41
25
云南
3
2196.63
26
陕西
4
1127.91
27
甘肃
4
2123.67
28
青海
4
4568.60
29
宁夏
4
4247.12
30
新疆
4
1360.50
分四类的情况下,最终分类结果如下:
第一类:
北京、上海、浙江。
第二类:
天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:
浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:
山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下:
案例数目
实际组
预测组
p
1
1
1
0.998
2
2
2
0.575
3
3
3
0.997
4
4
4
0.361
5
3
3
0.836
6
2
2
0.234
7
3
3
0.787
8
3
3
0.097
9
1
1
0.521
10
2
2
0.439
11
1
1
0.486
12
3
3
0.992
13
2
2
0.739
14
4
4
0.415
15
3
3
0.244
16
3
3
0.406
17
3
3
0.387
18
4
4
0.421
19
2
2
0.333
20
4
4
0.95
21
4
4
0.285
22
4
4
0.453
23
3
3
0.951
24
4
4
0.337
25
3
4**
0.278
26
4
4
0.632
27
4
4
0.278
28
4
4
0.222
29
4
4
0.124
30
4
4
0.981
**.错误分类的案例
从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
标准化的典型判别式函数系数
函数
1
2
3
农产品价格指数
0.18
0.398
0.394
农村住宅投资
0.493
0.687
-0.197
农村居民价格水平
0.087
0.362
0.243
生活消费支出
1.004
0.094
-0.817
人均纯收入
0.381
-0.282
0.565
耕地面积
-0.041
1.019
-0.235
就业人数
-0.631
-0.742
0.802
组质心处的函数
函数
组号
1
2
3
1
10.678
-0.369
-0.628
2
1.747
-0.751
1.175
3
-0.962
1.899
-0.032
4
-2.595
-1.177
-0.306
判别函数分别为:
Y1=0.18x1+0.493x2+0.087x3+1.004x4+0.381x5-0.041x6-0.631x7
Y2=0.398x1+0.687x2+0.362x3+0.094x4-0.282x5+1.019x6-0.742x7
Y3=0.394x1-0.197x2+0.243x3-0.817x4+0.565x5-0.235x6+0.802x7
将西藏的指标数据代入函数得:
Y1=-1.08671
Y2=-0.62213
Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:
D1=138.5182756
D2=12.11433124
D3=7.027544292
D4=2.869979346
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。
经spss软件分析结果如下:
(1)各指标的相关系数阵:
从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。
(2)检验:
由上表可知:
巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
从中可以看出,各个指标的贡献率都在百分之五十之上比较高。
从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。
第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。
(4)碎石图:
(5)因子载荷阵如下:
由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。
为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。
将五个指标按高载荷分成两类:
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。
(2)求相关矩阵的特征值和特征向量:
从上表可知,前两个特征值累计贡献率已达86.313%。
说明前两个主成分基本包含了全部指标具有的信息。
因此,取前两个特征值,并计算相应的特征向量:
(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
所以,前两个主成分为:
第一个主成分:
F1=0.135112X1+0.280371X2+0.276022X3+0.271383X4+0.211366X5
第二个主成分:
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农
居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
根据上表写出以下因子得分函数:
F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭人均纯收入+0.293就业人数
F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数
(5)综合评价:
以两个因子的方差贡献率为权数,综合评价模型为:
Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)
F1=0.135112X1+0.280371X2+0.276022X3+0.271383X4+0.211366X5
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:
(6)对结果进行分析:
从中可以看出,各地区的农村居民生活水平存在差异。
其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。
主要表现在农民收入水平和消费水平两个方面。
这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。
其次,天津、山东、福建、辽宁、广东综合评价值相对较低。
不过也处于全国前十的地位。
青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。
原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。
农村居民收入水平和消费水平均比较低。
因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 案例 分析 docx