运用spss对各地区的废气排放进行因子分析解析.docx
- 文档编号:23206515
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:17
- 大小:72.73KB
运用spss对各地区的废气排放进行因子分析解析.docx
《运用spss对各地区的废气排放进行因子分析解析.docx》由会员分享,可在线阅读,更多相关《运用spss对各地区的废气排放进行因子分析解析.docx(17页珍藏版)》请在冰豆网上搜索。
运用spss对各地区的废气排放进行因子分析解析
摘要
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。
近30年来,随着计算机应用技术的发展和科研生产的迫切需要。
多元统计分析技术被广泛地应用于地质、气象、水文等许多领域,已经成为解决实际问题的有效方法。
因子分析模型是主成分分析的推广。
它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关剧增。
因子分析的思想始于1904年查尔斯·斯皮尔曼对学生考试成绩的研究。
近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医院、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。
本文利用2014年《中国统计年鉴》的统计数据资料,在研究城市废气排放的现状及主要问题的基础上,运用因子分析方法分析了影响城市废气排放的主要因素,通过SPSS的操作,得出它的成分矩阵,方差贡献度提取公共因子……最后计算它的各因子得分和综合因子得分,然后就是对变量数据进行分析,得出一些结论提出控排,合排和净化的对策建议。
关键词:
应用多元统计分析因子分析SPSS成分矩阵
全国各重要城市废气排放的因子分析
1设计目的
学会应用SPSS软件进行相关的因子分析,同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合SPSS对数据的处理解决实际问题。
本设计是利用因子分析理论作分析,并用SPSS软件进行求解
2设计问题
X1表示二氧化硫年平均浓度;X2表示二氧化氮年平均浓度;X3表示可吸入颗粒数X4表示一氧化碳日均值第95百分位浓度;X5臭氧日最大8小时第九十百分位浓度;X6细颗粒物年均浓度;X7空气质量好于二级的天数。
现在利用因子分析对全国各重要城市废气排放进行分析?
各个重要城市的废气排放表2.1:
表2.1各个重要城市废气排放
地区
X1
X2
X3
X4
X5
X6
X7
北京
26
56
108
3.4
188
89
167
天津
59
54
150
3.7
151
96
145
石家庄
105
68
305
5.7
173
154
49
太原
80
43
157
3.4
148
81
162
呼和浩特
56
40
146
4.1
104
57
213
沈阳
90
43
129
3.2
139
78
215
长春
44
44
130
2.1
127
73
230
哈尔滨
44
56
119
2.2
72
81
239
上海
24
48
84
1.6
158
62
246
南京
37
55
137
2.1
138
78
198
杭州
28
53
106
1.9
155
70
212
宁波
22
44
86
1.7
137
54
277
温州
23
51
94
1.9
147
58
252
嘉兴
30
47
94
2.1
173
68
214
湖州
29
52
111
1.8
180
74
192
绍兴
38
49
105
1.9
133
71
240
金华
34
41
99
1.9
164
70
195
衢州
36
37
94
1.4
134
68
248
舟山
10
22
58
1.1
122
33
319
台州
17
34
82
1.8
154
53
266
丽水
19
32
69
1.2
143
49
297
合肥
22
39
115
1.8
101
88
180
福州
11
43
64
1.2
73
36
343
厦门
20
44
62
1.2
136
36
336
南昌
40
40
116
1.8
122
69
230
济南
95
61
199
3.1
190
110
79
青岛
58
43
106
2
115
67
259
五十一个变量取前二十七个变量
数据来源:
2014年《中国统计年鉴》
现在利用因子分析对全国各重要城市废气排放进行分析,看它们的排放与城市的有何关系?
3设计原理
1确定因子载荷:
主成分法、主轴因子法、最小二乘法、极大似然法、α因子
提取法等。
由于这些方法求解因子载荷的出发点不同,所得的结果也不完全
相同
2因子旋转:
因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A
左乘一正交阵而得到。
经过正交旋转而得到的新的公因子仍然保持彼此独立的性
质。
而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的
形式,其实际意义也更容易解释。
但不论是正交旋转还是斜交旋转,都应当使新
的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零。
3因子得分:
因子得分就是公共因子在每一个样品点上的得分。
根据因子得
分我们可以知道哪个城市的废气较多,哪个城市的废气较少。
根据因子得分排名可以得到排名较前的地区有什么特征。
4操作步骤
(1)将数据输入SPSS后,在SPSS窗口选择分析描述统计描述,然后将变量选入变量框,在选项点击均值在离散中最大值最小值和标准差,在显示顺序点击变量列表。
(2)将数据输入SPSS后,在SPSS窗口选择分析→降维→因子分析→将数据选入变量框中。
(3)点击描述按钮,展开相应对话框,选择统计量中的单变量描述性,相关矩阵中的系数及KMO和Bartlett的球形度检验和相关性水平。
单击继续按钮,返回主界面。
(4)点击抽取按钮,设置因子提取的选项,在方法下拉菜单栏里选择主成分法,在分析框中选相关性矩阵,未旋转的因子解,碎石图抽取中基于特征值大于1,最后,选最大因子迭代数为25次,单击继续按钮,返回主界面。
(5)点击旋转按钮,设置因子旋转方法,选择方差最大旋转,并选择输出中的旋转解,单击继续按钮,返回主界面。
(6)点击得分按钮,设置因子得分的选项。
选中保存为变量,方法为回归,将因子得分作为新变量保存在数据文件中。
选中显示因子得分系数矩阵按钮,这样在结果输出窗口中会给出因子得分系数矩阵。
单击继续按钮,返回主界面。
(7)点击选项按钮,在出来的界面缺失值中选均值替代,系数排序选择按大小排序,单击继续按钮,返回主界面。
(8)最后,在主界面上点击确定,输出结果
5结果分析
5.1主成分分析法
利用SPSS得到表5.1
表5.1描述统计量
N
极小值
极大值
均值
标准差
x1
51
7
105
35.31
22.246
x2
51
17
68
44.20
10.692
x3
51
47
305
108.51
45.990
x4
51
1
6
2.27
1.130
x5
51
72
190
137.98
27.876
x6
51
26
154
66.29
24.404
x7
51
49
343
233.41
66.430
有效的N(列表状态)
51
从描述统计量中可以看出数据都是比较有效的,因为所有的变量都没有缺失值,在最小值,最大值,均值和标准差都是有效数字,都是介于最大的数和最小的数。
利用SPSS得到表5.2CorrelationMatrix原有变量的相关系数矩阵
表5.2相关矩阵a
x1
x2
x3
x4
x5
x6
x7
相关
x1
1.000
.472
.808
.651
.085
.696
-.700
x2
.472
1.000
.635
.563
.305
.764
-.727
x3
.808
.635
1.000
.819
.066
.897
-.872
x4
.651
.563
.819
1.000
.010
.737
-.710
x5
.085
.305
.066
.010
1.000
.222
-.334
x6
.696
.764
.897
.737
.222
1.000
-.950
x7
-.700
-.727
-.872
-.710
-.334
-.950
1.000
a.行列式=.001
从相关系数矩阵得知:
大部分的相关系数都比较高,例如X1和X3的相关系数比较高,也就是二氧化硫和可吸入颗粒的相关系数比较强,X3和X6的相关系数比较高,也就是可吸入颗粒和臭氧含量的相关系数比较高等,例外从表中可以知道,前六个变量与第七个变量都成负相关,也很容易理解,毕竟空气质量的好坏和污染空气的排放不是正相关的,总的来说,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
利用SPSS得到表5.3
表5.3KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.837
Bartlett的球形度检验
近似卡方
353.670
df
21
Sig.
.000
KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。
主要应用于多元统计的因子分析。
KMO统计量是取值在0和1之间。
当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析由图可知:
Bartlett的球形度检验的自由度21,sig值小于0.05,无限接近于0,说明原变量之间存在相关关系。
同时,Kaiser-Meyer-Olkin为0.837,接近于1,根据KMO度量标准可知此数据适合做因子分析。
利用SPSS得到表5.4
表5.4公因子方差
初始
提取
x1
1.000
.700
x2
1.000
.686
x3
1.000
.935
x4
1.000
.771
x5
1.000
.921
x6
1.000
.918
x7
1.000
.916
是因子分析的初始解,显示了所有数据变量的共同度数据。
可以看到:
等变量的绝大部分信息(大于90%)可被因子解释,这些变量的信息丢失较少。
但其余的三个变量的信息也都保存了60%以上的信息。
因此,本次因子提取的总体效果是比较理想
利用SPSS得到表5.5
表5.5解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
4.742
67.739
67.739
4.742
67.739
67.739
4.552
65.024
65.024
2
1.104
15.773
83.512
1.104
15.773
83.512
1.294
18.488
83.512
3
.490
6.996
90.508
4
.310
4.422
94.929
5
.247
3.530
98.459
6
.069
.987
99.446
7
.039
.554
100.000
提取方法:
主成份分析。
由方差解释表可知特征值
=4.472,
=1.104,…………,相应的方差贡献的百分比为:
第一公共因子:
67.739%,第二公共因子:
15.773%,…………,取前两个公共因子时的累计贡献率已经达到83.512%,还差一点达到85%的要求,又满足特征值大于1的要求,所以取两个公共因子。
同样,通过得到的图一
图一
另外,从碎石图来看由图可知:
横坐标为因子分析数目,纵坐标为特征根。
第一个因子的特征根值很高,对解释原有变量的贡献最大;第2个以后的因子特征根值都很小,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取2个因子是合适的。
利用SPSS得到表5.6
表5.6成份矩阵a
成份
1
2
x6
.957
.033
x7
-.948
-.134
x3
.946
-.201
x4
.835
-.270
x1
.809
-.210
x2
.788
.256
x5
.243
.928
可知,通过用提取方法为主成分分析法提取了两个成分,X1,X2,X3,X4,X6,X7变量在第一个因子的载荷值的绝对值都很高。
即说明他们与第一个因子的相关程度高,而X5变量在第二个因子的载荷值也比较高,对原有变量的解释较为显著。
根据表5.6可以写出每个原始变量的因子表达式:
从成分矩阵表中可以看出,每个因子在不同的原始变量上的载荷虽然有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转,得到表5.7和成分图:
表5.7旋转成份矩阵a
成份
1
2
x3
.967
.021
x6
.924
.251
x7
-.892
-.347
x4
.875
-.072
x1
.836
-.020
x2
.708
.430
x5
.024
.959
由表5.7可知,通过提取方法为主成分分析法,通过方差最大法对成分矩阵进行正交旋转,在旋转在3次迭代后收敛,可以知道它在旋转后解释变量的能力虽然没有比较大的变化但对变量的解释还是比较好的。
从旋转后的正交因子载荷阵得知:
由于旋转后的因子载荷阵按照成份按照大小得分,而且同时它还具有两极分化的趋势,可以用趋向于1的变量来解释奢移因子,趋向于0的变量来解释低级因子第一公共因子上的高载荷的指标有X1、X2、X3、X4、X6、X7的载荷值分别为0.836,0.708,0.967,0.875,0.924,-0.892;第二公共因子上高载荷的指标有X5的因子载荷值为0.959。
从旋转矩阵中可以看出虽然它具有两极分化的特点,但和原来的成分矩阵相比变化不大,为了避免数据变量的绝对化,下面准备用斜交旋转对成分矩阵(即分析→降维→因子分析→点击旋转按钮,设置因子旋转方法,选择Promax,并选择输出中的旋转解,单击继续按钮,返回主界面。
)得到表5.8
表5.8模式矩阵a
成份
1
2
x3
.997
-.132
x6
.919
.113
x4
.915
-.213
x7
-.872
-.217
x1
.867
-.153
x2
.670
.331
x5
-.114
.986
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的倾斜旋转法。
通过主成分分析法,并采用斜交旋转得到的模式矩阵虽然具有两极分化的特点,但和前面的方差最大法得到的成份旋转矩阵相差不大,都是去两个成份,且取法也一样,所以不认为通过方差最大法得到的成份旋转矩阵绝对化,即得到旋转空间的成分图
在图中可以直观的看出:
二氧化碳浓度,二氧化氮浓度,细颗粒物,一氧化碳浓度基本在一起,虽然空气质量好于二级的天数不在一起,但也可以看出它跟成分1比跟成分二更有相关关系,可以命名为奢侈因子(地面排放污染因子);臭氧浓度单独在一起可以命名为低级因子(人为破化污染因子).
表5.9成份得分系数矩阵
成份
1
2
x1
.210
-.147
x2
.109
.264
x3
.236
-.132
x4
.227
-.198
x5
-.142
.830
x6
.190
.076
x7
-.167
-.164
根据表5.9中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分数,并可以根据此对观测量进行进一步的分析。
旋转后的因子得分表达式可以写成:
F1=0.210X1+0.109X2+0.236X3+0.227X4-0.142X5+0.190X6+0.167X7
F2=-0.147X1+0.264X2-0.132X3-0.198X4+0.830X5+0.076X6-0.164X7
综合得分:
得表5.10因子得分矩阵:
地区
F1得分
F2得分
综合得分F
北京
0.344617389
1.879988885
0.682
天津
1.209763685
0.414649339
1.0257
石家庄
3.562485101
0.735069617
2.935
太原
1.127581351
-0.14039474
0.8439
呼和浩特
0.865349745
-1.658104862
0.3077
沈阳
0.927599103
-0.499169393
0.611
长春
0.272523033
-0.391422804
-0.167
哈尔滨
0.678581849
-1.71656478
0.148
上海
-0.495869317
0.907908839
-0.325
南京
0.417216203
0.328243837
0.397
杭州
-0.071301567
0.908809911
0.146
宁波
-0.55778053
0.072444798
-0.148
温州
-0.353160429
0.552605663
-0.152
嘉兴
-0.247157313
1.271682577
0.089
湖州
-0.112863174
1.686993761
0.285
绍兴
0.027018554
0.025914999
0.02655
金华
-0.175794219
0.903001587
0.063
衢州
-0.319288247
-0.13732458
-0.271
舟山
-1.35084138
-0.821777046
-1.236
台州
-0.773857628
0.382695391
-0.517
丽水
-1.015491579
0.046057299
-0.775
合肥
0.251916932
-0.878992439
0.0026
福州
-0.863924844
-1.853724333
-0.181
厦门
-1.083277357
0.010837882
-0.838
南昌
0.056456405
-0.532498978
-0.0738
济南
1.826221099
1.683012928
1.793
青岛
0.193005286
-0.869626903
-0.0402
郑州
1.873971451
-1.091611023
1.2163
武汉
0.463470115
1.340977617
0.6572
长沙
0.172152429
0.121599716
0.1606
广州
-0.666984364
0.965357998
-0.304
深圳
-1.008308351
-0.443524256
-0.875
珠海
-1.076315582
-0.350006187
-0.915
佛山
-0.500957994
1.216116827
-0.121
江门
-0.709039527
0.557804229
-0.428
肇庆
-0.569662669
0.780017448
-0.2705
惠州
-1.259289449
0.145147581
-0.9047
东莞
-0.904207238
1.258361475
-0.4249
中山
-0.928696415
0.962764489
-0.509
南宁
-0.536899254
-0.410512547
-0.508
海口
-1.529141816
-1.428278431
-1.506
重庆
-0.29476791
0.832819788
-0.046
成都
0.800241549
1.207555806
0.89
贵阳
-0.496754384
-1.26308779
-0.6657
昆明
-0.644131329
-0.748891921
-0.667
拉萨
-1.365269745
-0.440670762
-1.16
西安
1.615460435
-0.244991897
1.203
兰州
0.440428707
-1.594108519
-0.009
西宁
0.829958829
-1.515820532
0.3096
银川
0.51616638
-1.414901124
0.08838
乌鲁木齐
1.438847982
-0.75243444
0.9531
表5.10各因子得分和综合得分
在两个公共因子上得分和综合得分就可以对各城市的环境与废气排放作出评价了,污染气体(F1)而言,在天津、太原、南昌、乌鲁木齐、青岛上的得分比较高,这就是在污染气体的排放而言,总的来说,这几个城市的人口比较多,人均消费也比较高,它们远高于其他城市,虽然北京的人口多和人均消费都比较高,但它的得分也比较小,就F2来说,北京、温州、嘉兴、南昌、珠海、惠州、成都的臭氧含量远高于其他城市,其余城市的得分虽然不很突出,但数值也都不低,说明这些城市的废气排放也都没有怎么控制。
将各城市在两个因子上的进行加权,就是综合得分,综合评分的前五是天津、石家庄、济南、郑州、西安,综合评分最低的是海口、舟山、惠州、厦门、拉萨,再结合前两个因子进行分析天津在污染气体的排放上都得分均位于前列,而惠州等城市在F2因子也就是臭氧含量上的等分比较低。
这种评价方法应用所以虽然普遍,但还是有一些文献有不同看法,因为主因子的特征向量的各级分量不一致,很难进行评价。
因此,认为这种综合评价的方法不严谨。
其实,我们认为这与其他统计方法一样,很多理论问题没有解决,但好像并不影响人们使用的热情,统计学应用中许多问题的完善需要人们去实践和探讨,这个问题也在其中。
6设计总结
通过这次课程设计,我知道了因子分析在解决实际问题中有很重要的意义,有些实际问题看起来很复杂麻烦,但通过因子以及SPSS软件的结合应用,就能很清楚的得到解决,给我们带来了很大的方便。
我也更加熟悉了因子分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运用 spss 各地区 废气 排放 进行 因子分析 解析