书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 运用spss对各地区的废气排放进行因子分析解析.docx

运用spss对各地区的废气排放进行因子分析解析.docx

文档编号：23206515
上传时间：2023-05-15
格式：DOCX
页数：17
大小：72.73KB

《运用spss对各地区的废气排放进行因子分析解析.docx》由会员分享，可在线阅读，更多相关《运用spss对各地区的废气排放进行因子分析解析.docx（17页珍藏版）》请在冰豆网上搜索。

运用spss对各地区的废气排放进行因子分析解析.docx

运用spss对各地区的废气排放进行因子分析解析

摘要

多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。

近30年来，随着计算机应用技术的发展和科研生产的迫切需要。

多元统计分析技术被广泛地应用于地质、气象、水文等许多领域，已经成为解决实际问题的有效方法。

因子分析模型是主成分分析的推广。

它也是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

相对于主成分分析，因子分析更倾向于描述原始变量之间的相关关系；因此，因子分析的出发点是原始变量的相关剧增。

因子分析的思想始于1904年查尔斯·斯皮尔曼对学生考试成绩的研究。

近年来，随着电子计算机的高速发展，人们将因子分析的理论成功地应用于心理学、医院、气象、地质、经济学等各个领域，也使得因子分析的理论和方法更加丰富。

本文利用2014年《中国统计年鉴》的统计数据资料，在研究城市废气排放的现状及主要问题的基础上，运用因子分析方法分析了影响城市废气排放的主要因素,通过SPSS的操作，得出它的成分矩阵，方差贡献度提取公共因子……最后计算它的各因子得分和综合因子得分，然后就是对变量数据进行分析，得出一些结论提出控排，合排和净化的对策建议。

关键词：

应用多元统计分析因子分析SPSS成分矩阵

全国各重要城市废气排放的因子分析

1设计目的

学会应用SPSS软件进行相关的因子分析，同时更好的了解应用多元统计分析的知识，熟练掌握应用多元统计分析在实际问题上的应用，并将所学的知识结合SPSS对数据的处理解决实际问题。

本设计是利用因子分析理论作分析，并用SPSS软件进行求解

2设计问题

X1表示二氧化硫年平均浓度；X2表示二氧化氮年平均浓度；X3表示可吸入颗粒数X4表示一氧化碳日均值第95百分位浓度；X5臭氧日最大8小时第九十百分位浓度；X6细颗粒物年均浓度；X7空气质量好于二级的天数。

现在利用因子分析对全国各重要城市废气排放进行分析？

各个重要城市的废气排放表2.1：

表2.1各个重要城市废气排放

地区

X1

X2

X3

X4

X5

X6

X7

北京

26

56

108

3.4

188

89

167

天津

59

54

150

3.7

151

96

145

石家庄

105

68

305

5.7

173

154

49

太原

80

43

157

3.4

148

81

162

呼和浩特

56

40

146

4.1

104

57

213

沈阳

90

43

129

3.2

139

78

215

长春

44

130

2.1

127

73

230

哈尔滨

44

56

119

2.2

72

81

239

上海

24

48

84

1.6

158

62

246

南京

37

55

137

2.1

138

78

198

杭州

28

53

106

1.9

155

70

212

宁波

22

44

86

1.7

137

54

277

温州

23

51

94

1.9

147

58

252

嘉兴

30

47

94

2.1

173

68

214

湖州

29

52

111

1.8

180

74

192

绍兴

38

49

105

1.9

133

71

240

金华

34

41

99

1.9

164

70

195

衢州

36

37

94

1.4

134

68

248

舟山

10

22

58

1.1

122

33

319

台州

17

34

82

1.8

154

53

266

丽水

19

32

69

1.2

143

49

297

合肥

22

39

115

1.8

101

88

180

福州

11

43

64

1.2

73

36

343

厦门

20

44

62

1.2

136

36

336

南昌

40

116

1.8

122

69

230

济南

95

61

199

3.1

190

110

79

青岛

58

43

106

2

115

67

259

五十一个变量取前二十七个变量

数据来源：

2014年《中国统计年鉴》

现在利用因子分析对全国各重要城市废气排放进行分析，看它们的排放与城市的有何关系？

3设计原理

1确定因子载荷：

主成分法、主轴因子法、最小二乘法、极大似然法、α因子

提取法等。

由于这些方法求解因子载荷的出发点不同，所得的结果也不完全

相同

2因子旋转：

因子旋转分为正交旋转与斜交旋转，正交旋转由初始载荷矩阵A

左乘一正交阵而得到。

经过正交旋转而得到的新的公因子仍然保持彼此独立的性

质。

而斜交旋转则放弃了因子之间彼此独立这个限制，因而可能达到更为简洁的

形式，其实际意义也更容易解释。

但不论是正交旋转还是斜交旋转，都应当使新

的因子载荷系数要么尽可能地接近与零，要么尽可能地远离零。

3因子得分：

因子得分就是公共因子在每一个样品点上的得分。

根据因子得

分我们可以知道哪个城市的废气较多，哪个城市的废气较少。

根据因子得分排名可以得到排名较前的地区有什么特征。

4操作步骤

（1）将数据输入SPSS后，在SPSS窗口选择分析描述统计描述，然后将变量选入变量框，在选项点击均值在离散中最大值最小值和标准差，在显示顺序点击变量列表。

（2）将数据输入SPSS后，在SPSS窗口选择分析→降维→因子分析→将数据选入变量框中。

（3）点击描述按钮，展开相应对话框，选择统计量中的单变量描述性，相关矩阵中的系数及KMO和Bartlett的球形度检验和相关性水平。

单击继续按钮，返回主界面。

（4）点击抽取按钮，设置因子提取的选项，在方法下拉菜单栏里选择主成分法，在分析框中选相关性矩阵，未旋转的因子解，碎石图抽取中基于特征值大于1，最后，选最大因子迭代数为25次，单击继续按钮，返回主界面。

（5）点击旋转按钮，设置因子旋转方法，选择方差最大旋转，并选择输出中的旋转解，单击继续按钮，返回主界面。

（6）点击得分按钮，设置因子得分的选项。

选中保存为变量，方法为回归，将因子得分作为新变量保存在数据文件中。

选中显示因子得分系数矩阵按钮，这样在结果输出窗口中会给出因子得分系数矩阵。

单击继续按钮，返回主界面。

（7）点击选项按钮，在出来的界面缺失值中选均值替代，系数排序选择按大小排序，单击继续按钮，返回主界面。

（8）最后，在主界面上点击确定，输出结果

5结果分析

5.1主成分分析法

利用SPSS得到表5.1

表5.1描述统计量

N

极小值

极大值

均值

标准差

x1

51

7

105

35.31

22.246

x2

51

17

68

44.20

10.692

x3

51

47

305

108.51

45.990

x4

51

1

6

2.27

1.130

x5

51

72

190

137.98

27.876

x6

51

26

154

66.29

24.404

x7

51

49

343

233.41

66.430

有效的N（列表状态）

51

从描述统计量中可以看出数据都是比较有效的，因为所有的变量都没有缺失值，在最小值，最大值，均值和标准差都是有效数字，都是介于最大的数和最小的数。

利用SPSS得到表5.2CorrelationMatrix原有变量的相关系数矩阵

表5.2相关矩阵a

x1

x2

x3

x4

x5

x6

x7

相关

x1

1.000

.472

.808

.651

.085

.696

-.700

x2

.472

1.000

.635

.563

.305

.764

-.727

x3

.808

.635

1.000

.819

.066

.897

-.872

x4

.651

.563

.819

1.000

.010

.737

-.710

x5

.085

.305

.066

.010

1.000

.222

-.334

x6

.696

.764

.897

.737

.222

1.000

-.950

x7

-.700

-.727

-.872

-.710

-.334

-.950

1.000

a.行列式=.001

从相关系数矩阵得知：

大部分的相关系数都比较高，例如X1和X3的相关系数比较高，也就是二氧化硫和可吸入颗粒的相关系数比较强，X3和X6的相关系数比较高，也就是可吸入颗粒和臭氧含量的相关系数比较高等，例外从表中可以知道，前六个变量与第七个变量都成负相关，也很容易理解，毕竟空气质量的好坏和污染空气的排放不是正相关的，总的来说，各变量呈较强的线性关系，能够从中提取公共因子，适合进行因子分析。

利用SPSS得到表5.3

表5.3KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.837

Bartlett的球形度检验

近似卡方

353.670

df

21

Sig.

.000

KMO（Kaiser-Meyer-Olkin）检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。

主要应用于多元统计的因子分析。

KMO统计量是取值在0和1之间。

当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强，原有变量越适合作因子分析；当所有变量间的简单相关系数平方和接近0时，KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析由图可知：

Bartlett的球形度检验的自由度21，sig值小于0.05，无限接近于0，说明原变量之间存在相关关系。

同时，Kaiser-Meyer-Olkin为0.837，接近于1，根据KMO度量标准可知此数据适合做因子分析。

利用SPSS得到表5.4

表5.4公因子方差

初始

提取

x1

1.000

.700

x2

1.000

.686

x3

1.000

.935

x4

1.000

.771

x5

1.000

.921

x6

1.000

.918

x7

1.000

.916

是因子分析的初始解，显示了所有数据变量的共同度数据。

可以看到：

等变量的绝大部分信息（大于90%）可被因子解释，这些变量的信息丢失较少。

但其余的三个变量的信息也都保存了60%以上的信息。

因此，本次因子提取的总体效果是比较理想

利用SPSS得到表5.5

表5.5解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

1

4.742

67.739

4.742

67.739

4.552

65.024

2

1.104

15.773

83.512

1.104

15.773

83.512

1.294

18.488

83.512

3

.490

6.996

90.508

4

.310

4.422

94.929

5

.247

3.530

98.459

6

.069

.987

99.446

7

.039

.554

100.000

提取方法：

主成份分析。

由方差解释表可知特征值

=4.472，

=1.104，…………，相应的方差贡献的百分比为：

第一公共因子：

67.739%，第二公共因子：

15.773%，…………，取前两个公共因子时的累计贡献率已经达到83.512%，还差一点达到85%的要求,又满足特征值大于1的要求，所以取两个公共因子。

同样，通过得到的图一

图一

另外，从碎石图来看由图可知：

横坐标为因子分析数目，纵坐标为特征根。

第一个因子的特征根值很高，对解释原有变量的贡献最大；第2个以后的因子特征根值都很小，对解释原有变量的贡献很小，已经成为可被忽略的，因此提取2个因子是合适的。

利用SPSS得到表5.6

表5.6成份矩阵a

成份

1

2

x6

.957

.033

x7

-.948

-.134

x3

.946

-.201

x4

.835

-.270

x1

.809

-.210

x2

.788

.256

x5

.243

.928

可知，通过用提取方法为主成分分析法提取了两个成分，X1,X2,X3,X4,X6,X7变量在第一个因子的载荷值的绝对值都很高。

即说明他们与第一个因子的相关程度高，而X5变量在第二个因子的载荷值也比较高，对原有变量的解释较为显著。

根据表5.6可以写出每个原始变量的因子表达式：

从成分矩阵表中可以看出，每个因子在不同的原始变量上的载荷虽然有明显的差别，为了便于对因子进行命名，需要对因子载荷阵进行旋转，得到表5.7和成分图：

表5.7旋转成份矩阵a

成份

1

2

x3

.967

.021

x6

.924

.251

x7

-.892

-.347

x4

.875

-.072

x1

.836

-.020

x2

.708

.430

x5

.024

.959

由表5.7可知，通过提取方法为主成分分析法，通过方差最大法对成分矩阵进行正交旋转，在旋转在3次迭代后收敛，可以知道它在旋转后解释变量的能力虽然没有比较大的变化但对变量的解释还是比较好的。

从旋转后的正交因子载荷阵得知：

由于旋转后的因子载荷阵按照成份按照大小得分，而且同时它还具有两极分化的趋势，可以用趋向于1的变量来解释奢移因子，趋向于0的变量来解释低级因子第一公共因子上的高载荷的指标有X1、X2、X3、X4、X6、X7的载荷值分别为0.836,0.708，0.967，0.875，0.924，-0.892；第二公共因子上高载荷的指标有X5的因子载荷值为0.959。

从旋转矩阵中可以看出虽然它具有两极分化的特点，但和原来的成分矩阵相比变化不大，为了避免数据变量的绝对化，下面准备用斜交旋转对成分矩阵（即分析→降维→因子分析→点击旋转按钮，设置因子旋转方法，选择Promax，并选择输出中的旋转解，单击继续按钮，返回主界面。

）得到表5.8

表5.8模式矩阵a

成份

1

2

x3

.997

-.132

x6

.919

.113

x4

.915

-.213

x7

-.872

-.217

x1

.867

-.153

x2

.670

.331

x5

-.114

.986

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的倾斜旋转法。

通过主成分分析法，并采用斜交旋转得到的模式矩阵虽然具有两极分化的特点，但和前面的方差最大法得到的成份旋转矩阵相差不大，都是去两个成份，且取法也一样，所以不认为通过方差最大法得到的成份旋转矩阵绝对化，即得到旋转空间的成分图

在图中可以直观的看出:

二氧化碳浓度，二氧化氮浓度，细颗粒物，一氧化碳浓度基本在一起，虽然空气质量好于二级的天数不在一起，但也可以看出它跟成分1比跟成分二更有相关关系，可以命名为奢侈因子（地面排放污染因子）;臭氧浓度单独在一起可以命名为低级因子（人为破化污染因子）.

表5.9成份得分系数矩阵

成份

1

2

x1

.210

-.147

x2

.109

.264

x3

.236

-.132

x4

.227

-.198

x5

-.142

.830

x6

.190

.076

x7

-.167

-.164

根据表5.9中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分数，并可以根据此对观测量进行进一步的分析。

旋转后的因子得分表达式可以写成：

F1=0.210X1+0.109X2+0.236X3+0.227X4-0.142X5+0.190X6+0.167X7

F2=-0.147X1+0.264X2-0.132X3-0.198X4+0.830X5+0.076X6-0.164X7

综合得分：

得表5.10因子得分矩阵：

地区

F1得分

F2得分

综合得分F

北京

0.344617389

1.879988885

0.682

天津

1.209763685

0.414649339

1.0257

石家庄

3.562485101

0.735069617

2.935

太原

1.127581351

-0.14039474

0.8439

呼和浩特

0.865349745

-1.658104862

0.3077

沈阳

0.927599103

-0.499169393

0.611

长春

0.272523033

-0.391422804

-0.167

哈尔滨

0.678581849

-1.71656478

0.148

上海

-0.495869317

0.907908839

-0.325

南京

0.417216203

0.328243837

0.397

杭州

-0.071301567

0.908809911

0.146

宁波

-0.55778053

0.072444798

-0.148

温州

-0.353160429

0.552605663

-0.152

嘉兴

-0.247157313

1.271682577

0.089

湖州

-0.112863174

1.686993761

0.285

绍兴

0.027018554

0.025914999

0.02655

金华

-0.175794219

0.903001587

0.063

衢州

-0.319288247

-0.13732458

-0.271

舟山

-1.35084138

-0.821777046

-1.236

台州

-0.773857628

0.382695391

-0.517

丽水

-1.015491579

0.046057299

-0.775

合肥

0.251916932

-0.878992439

0.0026

福州

-0.863924844

-1.853724333

-0.181

厦门

-1.083277357

0.010837882

-0.838

南昌

0.056456405

-0.532498978

-0.0738

济南

1.826221099

1.683012928

1.793

青岛

0.193005286

-0.869626903

-0.0402

郑州

1.873971451

-1.091611023

1.2163

武汉

0.463470115

1.340977617

0.6572

长沙

0.172152429

0.121599716

0.1606

广州

-0.666984364

0.965357998

-0.304

深圳

-1.008308351

-0.443524256

-0.875

珠海

-1.076315582

-0.350006187

-0.915

佛山

-0.500957994

1.216116827

-0.121

江门

-0.709039527

0.557804229

-0.428

肇庆

-0.569662669

0.780017448

-0.2705

惠州

-1.259289449

0.145147581

-0.9047

东莞

-0.904207238

1.258361475

-0.4249

中山

-0.928696415

0.962764489

-0.509

南宁

-0.536899254

-0.410512547

-0.508

海口

-1.529141816

-1.428278431

-1.506

重庆

-0.29476791

0.832819788

-0.046

成都

0.800241549

1.207555806

0.89

贵阳

-0.496754384

-1.26308779

-0.6657

昆明

-0.644131329

-0.748891921

-0.667

拉萨

-1.365269745

-0.440670762

-1.16

西安

1.615460435

-0.244991897

1.203

兰州

0.440428707

-1.594108519

-0.009

西宁

0.829958829

-1.515820532

0.3096

银川

0.51616638

-1.414901124

0.08838

乌鲁木齐

1.438847982

-0.75243444

0.9531

表5.10各因子得分和综合得分

在两个公共因子上得分和综合得分就可以对各城市的环境与废气排放作出评价了，污染气体（F1）而言，在天津、太原、南昌、乌鲁木齐、青岛上的得分比较高，这就是在污染气体的排放而言，总的来说，这几个城市的人口比较多，人均消费也比较高，它们远高于其他城市，虽然北京的人口多和人均消费都比较高，但它的得分也比较小，就F2来说，北京、温州、嘉兴、南昌、珠海、惠州、成都的臭氧含量远高于其他城市，其余城市的得分虽然不很突出，但数值也都不低，说明这些城市的废气排放也都没有怎么控制。

将各城市在两个因子上的进行加权，就是综合得分，综合评分的前五是天津、石家庄、济南、郑州、西安，综合评分最低的是海口、舟山、惠州、厦门、拉萨，再结合前两个因子进行分析天津在污染气体的排放上都得分均位于前列，而惠州等城市在F2因子也就是臭氧含量上的等分比较低。

这种评价方法应用所以虽然普遍，但还是有一些文献有不同看法，因为主因子的特征向量的各级分量不一致，很难进行评价。

因此，认为这种综合评价的方法不严谨。

其实，我们认为这与其他统计方法一样，很多理论问题没有解决，但好像并不影响人们使用的热情，统计学应用中许多问题的完善需要人们去实践和探讨，这个问题也在其中。

6设计总结

通过这次课程设计，我知道了因子分析在解决实际问题中有很重要的意义，有些实际问题看起来很复杂麻烦，但通过因子以及SPSS软件的结合应用，就能很清楚的得到解决，给我们带来了很大的方便。

我也更加熟悉了因子分