BY1307126孙健数理统计大作业二.docx
- 文档编号:29431079
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:16
- 大小:108.89KB
BY1307126孙健数理统计大作业二.docx
《BY1307126孙健数理统计大作业二.docx》由会员分享,可在线阅读,更多相关《BY1307126孙健数理统计大作业二.docx(16页珍藏版)》请在冰豆网上搜索。
BY1307126孙健数理统计大作业二
《数理统计大作业二》
姓名:
孙健
学号:
BY1307126
题目:
安全生产规律的聚类分析和判别分析
2013-12-7
摘要
有关研究成果表明,安全生产状况与经济社会发展水平密切相关。
本文应用多元聚类分析法,对世界27个国家安全生产与经济社会发展水平分别进行聚类分析,为制定我国安全生产发展战略提供重要的理论依据。
然后利用SPSS进行判别分析,研究并验证聚类分析是否归类正确。
关键词:
安全生产聚类分析判别分析SPSS
1.引言
安全生产状况是经济社会发展水平的综合反映,与经济社会发展水平、产业结构、教育和科技发展水平密切相关。
但是,安全生产状况相对经济社会发展水平而言,具有一定程度的独立性。
安全生产状况所具有的独立性和依附性双重特征,造成一个国家的安全生产状况与经济社会现代化水平既有联系又有区别,两者之间的协同或差异程度,反映了它们的协调关系。
为此,本文采用聚类分析方法,对不同国家安全生产状况和经济社会发展水平进行聚类分析,然后用判别分析进行验证。
2.聚类分析
2.1初步分类
本文选取了1990年的27个国家的数据进行分析。
根据当年的人均国民生产总值对着27个国家进行类型的划分。
人均国民生产总值在15000美元以上的为发达国家,人均国民生产总值在15000以下1000美元以上的为中等发达国家,1000美元以下的为发展中国家。
此种分发是现在世界上的比较公认的一种。
2.2变量选择
国家安全生产监督管理总局信息研究院完成的研究课题《安全生产与经济社会发展研究》,应用多元分析理论,建立安全生产与经济社会发展之间关系的数学模型,从14个指标中筛选出7个与安全生产关系最为密切的经济社会发展指标。
包括:
1人均国民生产总值,美元;
2农业产值占GDP比重;
3城市人口比重;
4公共教育经费占GDP比重;
5中学生入学率;
6每千人医生数;
7非农部门就业人数比重;
2.3分析过程
1990年27个国家的统计数据如表2.1.
国家
人均国民生产总值
农业产值占GDP比重
城市人口比重
公共教育经费占GDP比重
中学生入学率
每千人医生数
非农部门就业人数比重
瑞典
625050
2.7
63
7.2
90.2
2.9
96.57
美国
23440
2.1
75.2
5.1
95.8
2.4
97.14
德国
20290
2.8
85.3
4
98.3
3.1
95.81
加拿大
19790
2.5
76.6
6.5
101
2.1
95.89
澳大利亚
17590
3.3
85.1
4.9
81.7
2.3
94.64
意大利
17420
3.2
66.7
3.1
82.8
4.7
91.14
英国
16220
1.9
89.1
4.8
85.5
1.4
97.96
新加坡
11740
0.3
100
3.1
68.1
1.3
98.7
俄罗斯
6685
16.6
73.8
3
93.3
4.1
86.13
韩国
5740
8.7
73.8
3.4
89.8
0.8
82.08
白俄罗斯
3460
24.2
67
4.8
93
3.9
78.41
阿根廷
3190
8.1
86.5
10
83.5
2.7
98.17
匈牙利
2880
7.5
62
5.8
78.6
2.9
88.73
墨西哥
2830
8
72.5
3.6
54.8
1.1
73.17
巴西
2780
10.4
74.7
4.4
39
1.4
77.15
委内瑞拉
2650
5.4
84
3
35
1.6
86.86
马来西亚
2380
14.6
49.8
5.1
56.3
0.4
73.95
土耳其
2280
18.3
61.2
2.2
47.3
0.9
53.09
保加利亚
2260
17.7
66.5
5.2
75.2
3.3
81.49
罗马尼亚
1720
18.3
53.6
2.8
92
1.6
70.91
波兰
1700
8.9
61.8
5
81.5
2.1
88.39
乌克兰
1600
23
66.9
5.2
92.8
4.3
80.19
泰国
1520
12.7
18.7
3.5
30.1
0.2
36.04
埃及
810
18.3
44.1
3.9
76
0.8
61.02
中国
320
27.1
26.4
2.3
48.7
1.5
46.01
捷克共和国
316
7.3
74.8
4.4
91.2
2.8
92.19
孟加拉国
280
36.8
19.3
1.5
19
0.2
33.59
表2.127国数据统计
聚类分析的方法,主要有两种,一种是“快速聚类分析方法”(K-MeansClusterAnalysis),另一种是“层次聚类分析方法”(HierarchicalClusterAnalysis)。
如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。
因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。
本文数据不多,所以采用层次聚类分析方法。
层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类。
它使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。
本文目的是将样本聚类,因此选择Q型聚类。
方法确定以后利用SPSS对数据进行处理,得到结果如表2.2-表2.5所示。
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
27
100.0
0
.0
27
100.0
表2.2案例处理汇总
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
22
23
6.230
0
0
6
2
25
27
6.720
0
0
4
3
16
17
6.780
0
0
16
4
21
25
9.090
0
2
8
5
18
20
9.930
0
0
12
6
22
28
10.485
1
0
13
7
13
24
13.040
0
0
11
8
19
21
15.753
0
4
17
9
6
8
17.260
0
0
18
10
5
10
18.470
0
0
15
11
9
13
18.780
0
7
20
12
7
18
20.365
0
5
19
13
22
30
20.497
6
0
21
14
26
29
21.260
0
0
17
15
5
12
22.585
10
0
21
16
15
16
26.110
0
3
25
17
19
26
26.753
8
14
19
18
1
6
33.740
0
9
22
19
7
19
34.617
12
17
24
20
9
11
35.443
11
0
27
21
5
22
39.604
15
13
25
22
1
2
40.870
18
0
26
23
3
4
43.960
0
0
26
24
7
14
48.509
19
0
27
25
5
15
56.600
21
16
29
26
1
3
59.128
22
23
28
27
7
9
66.305
24
20
28
28
1
7
89.776
26
27
29
29
1
5
112.493
28
25
0
表2.3聚类表
案例
4群集
瑞典
1
美国
1
德国
1
加拿大
1
澳大利亚
2
意大利
1
英国
3
新加坡
1
俄罗斯
3
韩国
2
白俄罗斯
3
阿根廷
2
匈牙利
3
墨西哥
3
巴西
2
委内瑞拉
2
马来西亚
2
土耳其
3
保加利亚
3
罗马尼亚
3
波兰
3
乌克兰
2
泰国
2
埃及
3
中国
3
捷克共和国
3
孟加拉国
3
表2.4群体成员
孟加拉国──────────────┐
中国─────────┬─┐├──────────────────────────────────────────┐
土耳其─────────┘├─┘│
泰国───────────┘│
乌克兰──┬──┐│
白俄罗斯──┘├──┐│
保加利亚─────┘├──────┐│
俄罗斯────────┘├──────┐│
波兰───┬─┐│││
匈牙利───┘├─────────┘├─────┐│
捷克共和国─────┘│││
阿根廷────────────────────────┘││
埃及─────┬─┐├─────────┐│
罗马尼亚─────┘├────────┐│││
马来西亚───────┘││││
巴西───┬──┐├────────────┘││
墨西哥───┘├─────┐│││
委内瑞拉──────┘├───┘││
新加坡────────┬────┘││
韩国────────┘├──────────────┘
澳大利亚─┬─┐│
英国─┘├───┬──┐│
德国───────┘├────┐│
加拿大─┬─┐│││
美国─┘├──────┘├────────────────────────┘
瑞典───┘│
意大利───────────────┘
+------------------+------------------+------------------+------------------+------------------+---------
0.002.545.077.6110.0512.69
表2.5树状图
由分析结果可以看到,第一类,安全生产状况好的国家9个,10万人死亡率均低于7.6。
在这9个国家中包含3种类型的国家,一是经济高度发达国家,如澳大利亚、德国、英国、美国、瑞典;二是中等发达的国家,如波兰、捷克共和国;三是经济状况比较落后的国家,如:
孟加拉国、马来西亚、委内瑞拉。
第二类,安全生产状况中等的国家13个,10万人死亡率在7.6~20。
同样包含3种类型的国家,一是经济发达国家:
加拿大和意大利;二是中等发达和发展中国家:
埃及、墨西哥、马来西亚、俄罗斯、乌克兰、白俄罗斯、保加利亚、罗马尼亚、匈牙利和新加坡;三是中国。
第三类,安全生产状况较差的国家5个。
这几个国家的10万人死亡率一般都在20以上,包括泰国、巴西、阿根廷、土耳其、韩国。
从前面的聚类分析对比计算结果中不难发现,经济发达的国家安全生产状况比较好;经济落后的国家安全生产状况也可能好,即存在一定的差异性。
其中决定性的因素就在于,一个国家的安全生产状况受其所处的发展阶段影响,如孟加拉,依照世界银行的国家经济水平划分,属于世界上最不发达的国家,但这个国家安全生产状况好。
究其原因是该国尚处于农业经济阶段,工业生产的规模和发展速度都很低,因意外事故造成的人员死亡率很低。
2.4判别分析
聚类分析的结果基本和常识相符合,但只是感觉上的,为了验证其分类是否正确合理,于是有必要进行判别分析。
判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。
可以利用判别分析来对聚类分析结果的准确性进行检验。
聚类分析分成几类后,即可以作为判别分析的类别输入,进行判断。
这是本文进行判别分析的思路。
接下来用SPSS对聚类分析过的数据进行判别分析,结果如表3.1-表3.6以及图3.1所示
未加权案例
N
百分比
有效
27
100.0
排除的
缺失或越界组代码
0
.0
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
0
.0
合计
27
100.0
表3.1分析案例处理摘要
AverageLinkage(BetweenGroups)
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
人均国民生产总值
105685.7142
3496.0175
4
4.000
农业产值占GDP比重
2.7514
.3225
4
4.000
城市人口比重
77.6362
9.2200
4
4.000
公共教育经费占GDP比重
4.8600
.3925
4
4.000
中学生入学率
89.8000
16.5375
4
4.000
每千人医生数
3.4833
.3100
4
4.000
非农部门就业人数比重
97.4500
18.1875
4
4.000
2
人均国民生产总值
3368.2000
219.5846
10
10.000
农业产值占GDP比重
17.4100
2.66769
10
10.000
城市人口比重
52.8100
12.38022
10
10.000
公共教育经费占GDP比重
3.6000
1.14698
10
10.000
中学生入学率
77.1600
18.10071
10
10.000
每千人医生数
2.5300
.71810
10
10.000
非农部门就业人数比重
69.9800
18.08403
10
10.000
3
人均国民生产总值
312.5667
22.31833
16
16.000
农业产值占GDP比重
23.4500
2.79052
16
16.000
城市人口比重
40.8500
6.35019
16
16.000
公共教育经费占GDP比重
2.2500
.51625
16
16.000
中学生入学率
58.8000
13.14193
16
16.000
每千人医生数
1.4833
.20654
16
16.000
非农部门就业人数比重
57.4500
15.81301
16
16.000
合计
人均国民生产总值
38897.4233
4321.11998
30
30.000
农业产值占GDP比重
12.4167
1.64200
30
30.000
城市人口比重
52.2233
8.44381
30
30.000
公共教育经费占GDP比重
3.5533
.40117
30
30.000
中学生入学率
76.8967
18.06074
30
30.000
每千人医生数
2.4067
.26162
30
30.000
非农部门就业人数比重
73.0167
17.21828
30
30.000
表3.2组统计量
Wilks的Lambda
F
df1
df2
Sig.
人均国民生产总值
.213
32.093
3
26
.000
农业产值占GDP比重
.376
14.396
3
26
.000
城市人口比重
.520
7.987
3
26
.001
公共教育经费占GDP比重
.899
.975
3
26
.419
中学生入学率
.646
4.741
3
26
.009
每千人医生数
.978
.196
3
26
.898
非农部门就业人数比重
.755
2.812
3
26
.059
表3.3组均值的均等性检验
图3.1组质心分布图
AverageLinkage(BetweenGroups)
预测组成员
合计
1
2
3
初始
计数
1
6
0
0
4
2
0
10
0
10
3
0
0
10
16
%
1
100.0
.0
.0
100.0
2
.0
100.0
.0
100.0
3
.0
.0
100.0
100.0
表3.6分类结果
由SPSS输出的结果可以看到,本文对初始分组案例的分类正确率达到了100%。
此结果也验证了分类之前的分析和推断,并且是符合常理的。
参考文献
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:
北京航空航天大学数学系,2011.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- BY1307126 数理统计 作业