多元统计分析案例分析.docx
- 文档编号:23372434
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:19
- 大小:45.33KB
多元统计分析案例分析.docx
《多元统计分析案例分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例分析.docx(19页珍藏版)》请在冰豆网上搜索。
多元统计分析案例分析
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:
为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:
农
村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中抽取30个样本,指标数据如下:
地区
农产品价格指数(上年
=100)
农村住宅投资
(亿
元)
农村居民消费水平
(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入
(元)
耕地面
积2008
(万公顷)
农村私营企业就业人数(万人)
北京
98.27
93.04
12886
9254.8
13262
231.7
153.9
天津
103.03
48.31
7814
4936.7
10075
441.1
8.0
河北
99.701
441.75
3867
3844.9
5958
:
6317.3
80.9
山西
100.43
168.71
4500
3663.9
4736
14055.8
51.7
内家古
99.831
33.17
4486
4460.8
5530
7147.2
18.4
辽宁
102.901
162.05
5739
4489.5
6908
:
4085.3
99.5
吉林
103.771
71.65
4663
4147.4
6237
15534.6
21.2
黑龙江
98.07
126.45
4536
4391.2
6211
11830.1
42.8
上海
102.231
2.12
13609
10210.5
13978
P244.0
258.4
江苏
99.921
284.55
8196
6542.9
9118
14763.8
569.8
浙江
100.25
513.75
9878
8928.9
11303
11920.9
398.3
安徽
99.081
412.48
4447
4013.3
5285
:
5730.2
105.9
福建
98.041
176.35
6879
5498.3
7427
11330.1
113.1
江西
96.81
236.53
4397
3911.6
5789
12827.1
173.2
山东
101.23:
566.90
5733
4807.2
6990
7515.3
273.6
河南
99.071
729.47
4061
3682.2
5524
17926.4
137.7
湖北
96.30
210.06
4758
4090.8
5832
4664.1
66.4
湖南
90.611
298.41
4513
4310.4
5622
:
3789.4
104.5
广东
94.951
337.44
5880
5515.6
7890
12830.7
124.4
广西
89.25
248.80
3561
3455.3
4543
4217.5
89.0
海南
101.91
26.22
3846
3446.2
5275
727.5
5.3
重庆
88.99:
80.12
3652
3624.6
5277
:
2235.9
36.7675
四川
96.94
456.10
4748
3897.5
5087
5947.4
140.3
贵州
96.111
137.22
2926
2852.5
3472
14485.3
25.4
云南
96.50:
158.97
3603
3398.3
3952
:
6072.1
41.3
陕西
95.83
151.79
3683
3793.8
4105
4050.3
1.7
甘肃
100.22
97.33
2975
2942.0
3425
4658.8
22.0
青海
94.61:
63.63
3684
3863
542.7
10.5
11.4
宁夏
99.39
29.51
3894
4675
1107.1
43.6
16.7
新疆|92.87|79.35|3590|3457.9|4643|4124.6|18.7
数据来源:
《中国统计年鉴2010》
2、将数据进行标准化变换:
地区
农产品
价格指数(上年
=100)
农村住宅投资
(亿元)
农村居民消费水平
(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入
(元)
耕地面积
2008
(万公顷)
农村私营企业就业人数(万人)
北京
0.09
-0.67
2.82|
2.53
2.37
-1.36
0.37
天津
1.33
-0.91
0.92|
0.15
1.30
-1.29
-0.78
河北
0.47
1.24
-0.56
-0.46
-0.07:
0.84
-0.21
山西
0.65
-0.25
-0.33
-0.56
-0.48
0.02
-0.44
内家古
0.50
-0.99
-0.33
-0.12
-0.21
1.15
-0.70
辽宁
1.30
-0.29
0.14|
-0.10
0.25:
0.03
-0.06
吉林
1.52
-0.78
-0.26
-0.29
0.021
0.56
-0.68
黑龙江
0.04
-0.48
-0.31
-0.15
0.01
2.84
-0.51
上海
1.12
-1.16
3.09|
3.06
2.60]
-1.36
1.20
江苏
0.52
0.38
1.06|
1.04
0.98:
0.28
3.66
浙江
0.61
1.64
1.69
2.35
1.71
-0.75
2.31
安徽
0.30
1.08
-0.35
-0.36
-0.30
0.63
-0.01
福建
0.04
-0.21
0.57|
0.46
0.421
-0.97
0.05
江西
-0.28
0.12
-0.36
-0.42
-0.13
-0.42
0.52
山东
0.86
1.93
0.14I
0.08
0.27
1.28
1.32
河南
0.30
2.82
-0.49
-0.55
-0.221
1.43
0.24
湖北
-0.42
-0.03
-0.23
-0.32
-0.11
0.24
-0.32
湖南
-1.89
0.46
-0.32
-0.20
-0.18
-0.07
-0.02
广东
-0.77
0.67
0.19|
0.47
0.57:
-0.42
0.14
广西
-2.24
0.19
-0.68
-0.67
-0.54
0.08
-0.14
海南
1.04
-1.03
-0.57
-0.68
-0.30
-1.18
-0.81
重庆
-2.31
-0.74
-0.64
-0.58
-0.30
-0.64
-0.56
四川
-0.25
1.32
-0.23
-0.43
-0.36
0.71
0.26
贵州
-0.46
-0.42
-0.92
-1.00
-0.90
0.18
-0.65
云南
-0.36
-0.31
-0.66:
-0.70
-0.74
0.75
-0.52
陕西
-0.54
-0.34
-0.63:
-0.48
-0.69:
0.02
-0.83
甘肃
0.60
-0.64
-0.90
-0.96
-0.92
0.24
-0.67
青海
-0.85
-0.83
-0.63
-0.45
-1.88
-1.44
-0.76
宁夏
0.39
-1.01
-0.55
0.00
-1.69:
-1.43
-0.71
新疆
-1.30
-0.74
-0.67
-0.67
-0.51
0.05
-0.70
3、用K-均值聚类法对样本进行分类如下:
聚类成员
案例号
地区
聚类
距离
1
北京
1
1069.19
2
天津
2
3060.35
3
河北
3
920.65
4
山西
4
1506.42
5
内蒙古
3
577.12
6
辽宁
2
2453.89
7
吉林
3
1487.95
8
黑龙江
3
5006.41
9
上海
1
2094.38
10
江苏
2
2853.42
11
浙江
1
3015.14
12
安徽
3
1204.49
13
福建
2
1612.46
14
江西
4
1880.40
15
山东
3
2088.55
16
河南
3
1282.27
17
湖北
3
2230.15
18
湖南
4
2053.35'
19
广东
2
1119.98
20
广西
4
1412.14
21
海南
4
2541.05
22
重庆
4
1423.51
23
四川
3
1138.14
24
贵州
4
2025.41'
25
云南
3
2196.63
26
陕西
4
1127.91
27
甘肃
4
2123.67
28
青海
4
4568.60
29
宁夏
4
4247.12
30
新疆
4
1360.50
分四类的情况下,最终分类结果如下:
第一类:
北京、上海、浙江。
第二类:
天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:
浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:
山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下
案例数目
实际组
预测组
P
1
1
1
0.998
2
2
2
0.575
3
3
3
0.997
4
4
4
0.361
5
3
3
0.836
6
2
2
0.234
7
3
3
0.787
8
3
3
0.097
9
1
1
0.521
10
2
2
0.439
11
1
1
0.486
12
3
3
0.992
13
2
2
0.739
14
4
4
0.415
15
3
3
0.244
16
3
3
0.406
17
3
3
0.387
18
4
4
0.421
19
2
2
0.333
20
4
4
0.95
21
4
4
0.285
22
4
4
0.453
23
3
3
0.951
24
4
4
0.337
25
3
4**
0.278
26
4
4
0.632
27
4
4
0.278
28
4
4
0.222
29
4
4
0.124
30
4
4
0.981
**.错误分类的案例
从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
标准化的典型判别式函数系数
函数
1
2
3
农产品价格指数
0.18
0.398
0.394
农村住宅投资
0.493
0.687
-0.197
农村居民价格水
平
0.087
0.362
0.243
生活消费支出
1.004
0.094
-0.8171
人均纯收入
0.381
-0.282
0.565
耕地面积
-0.041
1.019
-0.235
就业人数
-0.631
-0.742
0.802]
组质心处的函数
函数「
组号
1
2
3
1
10.678
-0.369
-0.628
2
1.747
-0.751
1.175
3
-0.962
1.899
-0.0321
4
-2.595
-1.177
-0.306
判别函数分别为:
丫仁0.18x1+0.493x2+0.087x3+1.004x4+0.381x5-0.041x6-0.631x7
Y2=0.398x1+0.687x2+0.362x3+0.094x4-0.282x5+1.019x6-0.742x7
Y3=0.394x1-0.197x2+0.243x3-0.817x4+0.565x5-0.235x6+0.802x7将西藏的指标数据代入函数得:
丫1=-1.08671
Y2=-0.62213
Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:
D1=138.5182756
D2=12.11433124
D3=7.027544292
D4=2.869979346
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标经spss软件分析结果如下:
(1)各指标的相关系数阵:
CorrelationMatrix
农产品价格指数
农村居民消费
消费支出
庭人均纯收入
业就业人数
Correlation农产品价格指数
1.000
.356
.296
.351
.187
农村居民消费
.356
1.000
.968
.922
.584
消费支出
.296
.968
1.000
.864
.625
庭人均纯收入
.351
.922
.864
1.000
.578
业就业人数
.187
.584
.625
.578
1.000
从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。
(2)检验:
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.701
Bartlett'sTestof
Approx.Chi-Square
145.585
Sphericity
df
10
Sig.
.000
由上表可知:
巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为
0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,K0值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
Communalities
Initial
Extraction
农产品价格指数
1.000
.979
农村居民消费
1.000
.938
消费支出
1.000
.923
庭人均纯收入
1.000
.878
业就业人数
1.000
.598
ExtractionMethod:
PrincipalComponentAnalysis.
从中可以看出,各个指标的贡献率都在百分之五十之上比较高
TotalVarianeeExplained
Component
hitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVarianee
Cumulative%
Total
%ofVarianee
Cumulative%
Total
%ofVarianee
Cumulative%
1
3.449
68.973
68.973
3.449
68.973
68.973
3.200
63.997
63.997
2
.867
17.340
86.313
.867
17.340
86.313
1.116
22.315
86.313
3
.526
10.517
96.830
4
.140
2.796
99.626
5
.019
.374
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的
68%累积方差贡献率为68.973%。
第二个因子的特征根为0.863,解释原有变量
总方差17.34%,累计方差贡献率为86.313%。
(4)碎石图:
ScreePlot
(5)因子载荷阵如下:
ComponentMatrixa
Component
1
2
农产品价格指数
.446
.883
农村居民消费
.967
-.052
消费支出
.952
-.125
家庭人均纯收入
.936
-.039
就业人数
.729
-.258
ExtractionMethod:
PrincipalComponentAnalysis.
a.2componentsextracted.
由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。
为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
Component
1
2
农产品价格指数
.150
.978
农村居民消费
.936
.251
消费支出
.944
.177
家庭人均纯收入
.902
.253
就业人数
.773
-.019
RotatedComponentMatrix
a
ExtractionMethod:
PrincipalComponentAnalysis.RotationMethod:
VarimaxwithKaiserNormalization.
a.Rotationconvergedin3iterations.
(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。
将五个指标按高载荷分成两类:
高载荷指标
意义[
农村居民消费水平
1
农村生活消费支出
收支因子j
农村居民家庭人均收入
2
农产品价格指数
价格因子1
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
CorrelationMatrix
农产品价格指数
农村居民消费
消费支出
庭人均纯收入
业就业人数
Correlation农产品价格指数
1.000
.356
.296
.351
.187
农村居民消费
.356
1.000
.968
.922
.584
消费支出
.296
.968
1.000
.864
.625
庭人均纯收入
.351
.922
.864
1.000
.578
业就业人数
.187
.584
.625
.578
1.000
可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。
(2)求相关矩阵的特征值和特征向量:
特征根
方差贡献率
累计贡献率
1
3.449
68.973
P68.973
2
0.867
17.34
86.313
3
0.526
10.517
96.83
4
0.14
2.796
—99.626
5
0.019
0.374
100
从上表可知,前两个特征值累计贡献率已达86.313%。
说明前两个主成分基本包
含了全部指标具有的信息。
因此,取前两个特征值,并计算相应的特征向量:
(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
compoent
1
2
农产品价格指数
0.135112
1.018454
农村居民消费水平
P0.280371
-0.059977
消费支出
0.276022
-0.144175
家庭人均年纯收入
[0.271383
-0.044983
就业人数
0.211366
-0.297578
所以,前两个主成分为:
第一个主成分:
F仁0.135112X1+0.280371X2+0.276022X3+0.271383X4+0.211366X5
第二个主成分:
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
ComponentScoreCoefficientMatrix
Component
1
2
农产品价格指数
-.193
1.009
农村居民消费
.285
.031
消费支出
.307
-.051
家庭人均纯收入
.272
.041
就业人数
.293
-.218
ExtractionMethod:
PrincipalComponentAnalysis.
RotationMethod:
VarimaxwithKaiserNormalization.ComponentScores.
根据上表写出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 案例 分析