多元统计分析实例汇总.docx
- 文档编号:24981155
- 上传时间:2023-06-03
- 格式:DOCX
- 页数:22
- 大小:93.58KB
多元统计分析实例汇总.docx
《多元统计分析实例汇总.docx》由会员分享,可在线阅读,更多相关《多元统计分析实例汇总.docx(22页珍藏版)》请在冰豆网上搜索。
多元统计分析实例汇总
多元统计分析实例
院系:
商学院
学号:
姓名:
多元统计分析实例
本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.
数据如下表:
一.聚类法
设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.
聚类表
阶
群集组合
首次出现阶群集
群集1
群集2
系数
群集1
群集2
下一阶
1
5
7
226.381
0
0
13
2
2
9
1715.218
0
0
5
3
22
24
1974.098
0
0
7
4
1
29
5392.690
0
0
6
5
2
30
6079.755
2
0
6
6
1
2
11120.902
4
5
8
7
4
22
21528.719
0
3
11
8
1
26
23185.444
6
0
14
9
12
20
26914.251
0
0
19
10
27
31
35203.443
0
0
20
11
4
28
50321.121
7
0
22
12
11
13
65624.068
0
0
24
13
5
25
114687.756
1
0
17
14
1
21
169600.075
8
0
22
15
8
18
188500.814
0
0
21
16
17
19
204825.463
0
0
21
17
5
14
268125.103
13
0
20
18
3
23
387465.457
0
0
26
19
6
12
425667.984
0
9
23
20
5
27
459235.019
17
10
23
21
8
17
499195.430
15
16
25
22
1
4
559258.810
14
11
28
23
5
6
708176.881
20
19
24
24
5
11
854998.386
23
12
28
25
8
10
1042394.608
21
0
26
26
3
8
1222229.597
18
25
29
27
15
16
1396048.280
0
0
29
28
1
5
1915098.014
22
24
30
29
3
15
3086204.552
26
27
30
30
1
3
6791755.637
28
29
0
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
内蒙5-+
吉林7-+
云南25-+-+
江西14-++-+
陕西27-+-+|
新疆31-++-+
安徽12-+-+||
广西20-++-++-------+
辽宁6---+||
浙江11-+-----+|
福建13-+|
重庆22-++---------------------------------+
贵州24-+||
山西4-+---+||
甘肃28-+|||
北京1-+|||
青海29-++---------+|
天津2-+||
上海9-+||
宁夏30-+---+|
西藏26-+|
海南21-+|
河北3---+-----+|
四川23---+||
黑龙江8-+-++-------------+|
湖南18-++---+|||
湖北17-+-++-++-------------------------+
广东19-+||
江苏10-------+|
山东15-----------+-----------+
河南16-----------+
群集成员
案例
4群集
1:
北京
1
2:
天津
1
3:
河北
1
4:
山西
1
5:
内蒙
2
6:
辽宁
1
7:
吉林
2
8:
黑龙江
2
9:
上海
1
10:
江苏
1
11:
浙江
1
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
3
16:
河南
1
17:
湖北
1
18:
湖南
1
19:
广东
1
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
西藏
4
27:
陕西
1
28:
甘肃
1
29:
青海
1
30:
宁夏
1
31:
新疆
2
从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少.
三.判别法
分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.
分析案例处理摘要
未加权案例
N
百分比
有效
31
100.0
排除的
缺失或越界组代码
0
.0
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
0
.0
合计
31
100.0
实验结果分析:
组统计量
AverageLinkage(BetweenGroups)
有效的N(列表状态)
均值
标准差
未加权的
已加权的
1
农业总产值
1463.8900
1062.03486
25
25.000
林业总产值
118.5768
87.02052
25
25.000
牧业总产值
830.3664
671.10440
25
25.000
渔业总产值
291.4128
346.71902
25
25.000
农村居民家庭拥有生产性固定资产原值
14432.3400
5287.92950
25
25.000
农村居民家庭经营耕地面积
1.5496
.88484
25
25.000
2
农业总产值
1582.2975
543.92851
4
4.000
林业总产值
93.3500
37.71131
4
4.000
牧业总产值
1021.3175
372.88255
4
4.000
渔业总产值
38.3500
27.49067
4
4.000
农村居民家庭拥有生产性固定资产原值
30226.4175
4233.77839
4
4.000
农村居民家庭经营耕地面积
9.4975
3.30626
4
4.000
3
农业总产值
3960.6200
.a
1
1.000
林业总产值
107.0100
.a
1
1.000
牧业总产值
2285.9200
.a
1
1.000
渔业总产值
1267.0700
.a
1
1.000
农村居民家庭拥有生产性固定资产原值
19168.1400
.a
1
1.000
农村居民家庭经营耕地面积
1.6400
.a
1
1.000
4
农业总产值
53.3900
.a
1
1.000
林业总产值
2.5600
.a
1
1.000
牧业总产值
59.0200
.a
1
1.000
渔业总产值
.2200
.a
1
1.000
农村居民家庭拥有生产性固定资产原值
52935.0700
.a
1
1.000
农村居民家庭经营耕地面积
1.8900
.a
1
1.000
从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.
组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
农业总产值
.773
2.640
3
27
.070
林业总产值
.928
.699
3
27
.561
牧业总产值
.801
2.238
3
27
.107
渔业总产值
.691
4.019
3
27
.017
农村居民家庭拥有生产性固定资产原值
.253
26.538
3
27
.000
农村居民家庭经营耕地面积
.190
38.263
3
27
.000
由表中可以知道,13456指标之间的sig值较小,2指标sig值有0.561较大,不过仍说明接受原假设,各指标族群间差异较大.
汇聚的组内矩阵
农业总产值
林业总产值
牧业总产值
渔业总产值
相关性
农业总产值
1.000
.449
.895
.400
林业总产值
.449
1.000
.489
.481
牧业总产值
.895
.489
1.000
.294
渔业总产值
.400
.481
.294
1.000
农村居民家庭拥有生产性固定资产原值
-.093
-.262
-.052
-.040
农村居民家庭经营耕地面积
.056
-.033
.181
-.104
汇聚的组内矩阵
农村居民家庭拥有生产性固定资产原值
农村居民家庭经营耕地面积
相关性
农业总产值
-.093
.056
林业总产值
-.262
-.033
牧业总产值
-.052
.181
渔业总产值
-.040
-.104
农村居民家庭拥有生产性固定资产原值
1.000
.326
农村居民家庭经营耕地面积
.326
1.000
从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.
Fisher分析法
协方差矩阵的均等性的箱式检验
对数行列式
AverageLinkage(BetweenGroups)
秩
对数行列式
1
6
61.125
2
.a
.b
3
.c
.b
4
.c
.b
汇聚的组内
6
62.351
打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
典型判别式函数摘要
特征值
函数
特征值
方差的%
累积%
正则相关性
1
4.874a
64.2
64.2
.911
2
2.084a
27.4
91.6
.822
3
.638a
8.4
100.0
.624
由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大..
标准化的典型判别式函数系数
函数
1
2
3
农业总产值
.500
-.196
.000
林业总产值
.234
.164
-.742
牧业总产值
-.639
.143
.649
渔业总产值
-.185
-.130
.869
农村居民家庭拥有生产性固定资产原值
.370
1.022
.071
农村居民家庭经营耕地面积
.865
-.676
.051
典型判别式函数系数
函数
1
2
3
农业总产值
.000
.000
.000
林业总产值
.003
.002
-.009
牧业总产值
.000
.000
.001
渔业总产值
.000
.000
.003
农村居民家庭拥有生产性固定资产原值
.000
.000
.000
农村居民家庭经营耕地面积
.626
-.489
.037
(常量)
-2.928
-2.269
-.975
非标准化系数
由表中可知,3个Fisher判别函数分别为:
农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用.
结构矩阵
函数
1
2
3
农村居民家庭经营耕地面积
.909*
-.319
.126
农村居民家庭拥有生产性固定资产原值
.585
.775*
.213
林业总产值
-.068
-.162*
-.027
渔业总产值
-.164
-.059
.695*
农业总产值
-.026
-.179
.591*
牧业总产值
.007
-.166
.547*
判别变量和标准化典型判别式函数之间的汇聚组间相关性
按函数内相关性的绝对大小排序的变量。
*.每个变量和任意判别式函数间最大的绝对相关性
该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.
组质心处的函数
AverageLinkage(BetweenGroups)
函数
1
2
3
1
-.859
-.159
-.170
2
5.184
-.860
.085
3
-1.262
.162
4.058
4
2.013
7.257
-.144
在组均值处评估的非标准化典型判别式函数
由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.
贝叶斯分析法
分类函数系数
AverageLinkage(BetweenGroups)
1
2
3
4
农业总产值
.003
.006
.002
.003
林业总产值
.029
.042
-.010
.051
牧业总产值
-.003
-.009
.002
-.004
渔业总产值
-.002
-.004
.010
-.006
农村居民家庭拥有生产性固定资产原值
.001
.001
.001
.002
农村居民家庭经营耕地面积
.153
4.286
-.100
-1.675
(常量)
-8.418
-38.180
-20.732
-61.646
分类函数系数
AverageLinkage(BetweenGroups)
该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数.
第一类:
第二类;
第三类;
第四类:
将各样品的自变量值代入上述4个Bayes判别函数,得到函数值。
比较函数值,哪个函数值比较大就可以判断该样品判入哪一类.
判别结果检验
按照案例顺序的统计量
案例数目
最高组
P(D>d|G=g)
实际组
预测组
p
df
初始
1
1
1
.684
3
2
1
1
.945
3
3
1
1
.724
3
4
1
1
.390
3
5
2
2
.961
3
6
1
1
.117
3
7
2
2
.533
3
8
2
2
.013
3
9
1
1
.172
3
10
1
3**
.585
3
11
1
1
.219
3
12
1
1
.975
3
13
1
1
.980
3
14
1
1
.699
3
15
3
3
1.000
3
16
1
1
.900
3
17
1
1
.313
3
18
1
1
.773
3
19
1
1
.468
3
20
1
1
.868
3
21
1
1
.742
3
22
1
1
.949
3
23
1
1
.672
3
24
1
1
.910
3
25
1
1
.268
3
26
4
4
1.000
3
27
1
1
.929
3
28
1
1
.568
3
29
1
1
.526
3
30
1
1
.182
3
31
2
2
.030
3
**.错误分类的案例
分类结果a
AverageLinkage(BetweenGroups)
预测组成员
1
2
3
初始
计数
1
24
0
1
2
0
4
0
3
0
0
1
4
0
0
0
%
1
96.0
.0
4.0
2
.0
100.0
.0
3
.0
.0
100.0
从上图可以看出本次判别分析的结果比较贴近,只有第10统计量在分布上出现不同.从总体而言,判别效果较好.
3.主成分分析
通过SPSS主成分统计分析,得到如下数据.
公因子方差
初始
提取
农业总产值
1.000
.874
林业总产值
1.000
.528
牧业总产值
1.000
.882
渔业总产值
1.000
.543
农村居民家庭拥有生产性固定资产原值
1.000
.706
农村居民家庭经营耕地面积
1.000
.781
提取方法:
主成份分析。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
1
2.728
45.463
45.463
2.728
45.463
2
1.585
26.422
71.886
1.585
26.422
3
.676
11.264
83.150
4
.609
10.149
93.299
5
.331
5.515
98.814
6
.071
1.186
100.000
提取方法:
主成份分析。
解释的总方差
成份
提取平方和载入
旋转平方和载入
累积%
合计
方差的%
累积%
1
45.463
2.624
43.740
43.740
2
71.886
1.689
28.146
71.886
提取方法:
主成份分析。
从以上表可以知道,成分
的特征值都>1,并且解释了71.886%的方差,达到了主成分分析的要求.所以只要提取两个因子即可满足要求.其他因子不予以提取.
得到以下数据.
成份矩阵a
成份
1
2
农业总产值
.875
.330
林业总产值
.720
-.097
牧业总产值
.836
.428
渔业总产值
.724
-.138
农村居民家庭拥有生产性固定资产原值
-.428
.723
农村居民家庭经营耕地面积
-.194
.862
提取方法:
主成分分析法。
a.已提取了2个成份。
得到主成分
解释:
第一类因子F1中X1X2X3X4载荷系数较大.主要解释了各省区自然条件的状况和农林牧渔收入.可抽象为农业的环境因子.
第二类因子F2中X5X6载荷比较大.主要解释了各个省区农民的经济和耕地状况.可抽象于农业的农民因子.
4.因子分析:
通过主城分析得到旋转之前的因子与载荷.与因子公式.
下图为旋转矩阵以及旋转之后的因子.
成份转换矩阵
成份
1
2
1
.954
-.301
2
.301
.954
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
旋转成份矩阵a
成份
1
2
农业总产值
.934
.052
林业总产值
.657
-.309
牧业总产值
.926
.156
渔业总产值
.649
-.349
农村居民家庭拥有生产性固定资产原值
-.191
.818
农村居民家庭经营耕地面积
.074
.880
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
得到的旋转之后的因子
.
旋转之后的矩阵有了明显的变化,因子的特征载荷增大.
解释:
第一类因子F1中X1X2X3X4载荷系数较大.主要解释了各省区自然条件的状况和农林牧渔收入.可抽象为农业的环境因子.
第二类因子F2中X5X6载荷比较大.主要解释了各个省区农民的经济和耕地状况.可抽象于农业的农民因子.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 实例 汇总