多元统计分析案例分析.docx
- 文档编号:5006886
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:16
- 大小:126.57KB
多元统计分析案例分析.docx
《多元统计分析案例分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例分析.docx(16页珍藏版)》请在冰豆网上搜索。
多元统计分析案例分析
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:
为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:
农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中抽取30个样本,指标数据如下:
地区
农产品价格指数(上年=100)
农村住宅投资
(亿元)
农村居民消费水平(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入(元)
耕地面积2008
(万公顷)
-
农村私营企业就业人数(万人)
北京
12886
13262
天津
>
7814
10075
河北
、
3867
5958
山西
4500
{
4736
内蒙古
4486
5530
(
辽宁
5739
6908
吉林
;
4663
6237
黑龙江
{
4536
6211
上海
13609
。
13978
江苏
8196
9118
>
浙江
9878
11303
安徽
!
4447
5285
福建
|
6879
7427
江西
4397
¥
5789
山东
5733
6990
#
河南
4061
5524
湖北
,
4758
5832
湖南
】
4513
5622
广东
5880
:
7890
广西
3561
4543
{
海南
3846
5275
重庆
·
3652
5277
四川
~
4748
5087
贵州
2926
:
3472
云南
3603
3952
/
陕西
3683
4105
甘肃
'
2975
3425
青海
^
3684
3863
宁夏
3894
4675
(
新疆
3590
4643
)
数据来源:
《中国统计年鉴2010》.
2、将数据进行标准化变换:
地区
农产品价格指数(上年=100)
农村住宅投资
(亿元)
农村居民消费水平(元)
农村居民生活消费支出合计
(元)
农村居民家庭人均纯收入(元)
|
耕地面积2008
(万公顷)
农村私营企业就业人数(万人)
北京
>
天津
河北
.
山西
~
内蒙古
<
辽宁
&
吉林
黑龙江
^
上海
)
江苏
…
浙江
}
安徽
福建
`
江西
山东
(
河南
"
湖北
湖南
^
广东
广西
)
海南
;
重庆
四川
贵州
{
云南
;
陕西
>
甘肃
青海
》
宁夏
-
新疆
?
3、用K-均值聚类法对样本进行分类如下:
聚类成员
案例号
地区
聚类
…
距离
1
北京
1
2
天津
2
3
,
河北
3
4
山西
4
5
内蒙古
3
【
6
辽宁
2
7
吉林
3
8
`
黑龙江
3
9
上海
1
10
江苏
2
.
11
浙江
1
12
安徽
3
13
?
福建
2
14
江西
4
15
山东
3
.
16
河南
3
17
湖北
3
18
#
湖南
4
19
广东
2
20
广西
4
—
21
海南
4
22
重庆
4
23
;
四川
3
24
贵州
4
25
云南
3
】
26
陕西
4
27
甘肃
4
28
(
青海
4
29
宁夏
4
30
新疆
4
—
分四类的情况下,最终分类结果如下:
第一类:
北京、上海、浙江。
第二类:
天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:
浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:
山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
…
针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下:
案例数目
实际组
预测组
p
1
1
1
`
2
2
2
3
3
3
4
4
)
4
5
3
3
6
2
2
·
7
3
3
8
3
3
9
1
。
1
10
2
2
11
1
1
$
12
3
3
13
2
2
14
4
·
4
15
3
3
16
3
3
`
17
3
3
18
4
4
19
2
:
2
20
4
4
21
4
4
—
22
4
4
23
3
3
24
4
*
4
25
3
4**
26
4
4
~
27
4
4
28
4
4
29
4
)
4
30
4
4
**.错误分类的案例
从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
《
标准化的典型判别式函数系数
函数
1
2
·
3
农产品价格指数
农村住宅投资
农村居民价格水平
}
生活消费支出
人均纯收入
"
耕地面积
就业人数
—
组质心处的函数
函数
组号
1
2
3
@
1
2
3
4
判别函数分别为:
Y1=++++
Y2=++++
Y3=+++
将西藏的指标数据代入函数得:
Y1=
Y2=
Y3=
计算Y值与不同类别均值之间的距离分别为:
D1=
D2=12.
D3=
D4=
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。
经spss软件分析结果如下:
(1)各指标的相关系数阵:
从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。
(2)检验:
由上表可知:
巴特利特球度检验统计量的观测值为.相应的概率p接近为0.如果显著性水平a为,由于显著性水平小于,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
从中可以看出,各个指标的贡献率都在百分之五十之上比较高。
从上表中可以看出,第一个因子的特征根为.解释原有五个变量总方差的68%,累积方差贡献率为%。
第二个因子的特征根为,解释原有变量总方差%,累计方差贡献率为%。
(4)碎石图:
(5)因子载荷阵如下:
由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。
为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。
将五个指标按高载荷分成两类:
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。
(2)求相关矩阵的特征值和特征向量:
从上表可知,前两个特征值累计贡献率已达%。
说明前两个主成分基本包含了全部指标具有的信息。
因此,取前两个特征值,并计算相应的特征向量:
(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
所以,前两个主成分为:
第一个主成分:
F1=X1++++
第二个主成分:
F2=在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农
居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
根据上表写出以下因子得分函数:
F1=农产品价格指数+农村居民消费+消费支出+家庭人均纯收入+就业人数
F2=农产品价格指数+农村居民消费消费支出+家庭人均纯收入就业人数
(5)综合评价:
以两个因子的方差贡献率为权数,综合评价模型为:
Z=+(旋转之后的方差贡献率)
F1=X1++++
F2=将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:
(6)对结果进行分析:
从中可以看出,各地区的农村居民生活水平存在差异。
其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。
主要表现在农民收入水平和消费水平两个方面。
这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。
其次,天津、山东、福建、辽宁、广东综合评价值相对较低。
不过也处于全国前十的地位。
青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。
原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。
农村居民收入水平和消费水平均比较低。
因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 案例 分析