空气污染研究的主成分分析Word格式.doc
- 文档编号:13035096
- 上传时间:2022-10-03
- 格式:DOC
- 页数:9
- 大小:413KB
空气污染研究的主成分分析Word格式.doc
《空气污染研究的主成分分析Word格式.doc》由会员分享,可在线阅读,更多相关《空气污染研究的主成分分析Word格式.doc(9页珍藏版)》请在冰豆网上搜索。
样本方差
原始变量
样本主成分
样本协方差
样本相关矩阵
样本平均值
协方差矩阵
特征向量矩阵
矩阵的特征值
矩阵的特征向量
信息提取率
五、问题求解
5.1协方差矩阵主成分分析
设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为
(1)
根据已有数据计算得样本的均值向量为
根据协方差矩阵计算公式
(2)
代入数据可求得随机变量相应的样本协方差矩阵为
利用特征值计算公式代入数据可求得的特征值与对应单位正交化特征向量分别为
,
利用第个主成分的贡献率
(3)
及前个主成分的累计贡献率
(4)
代入数据计算得的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.6968%,故只需提取前三个主成分即可:
表1的各标准化主成分的贡献率及累计贡献率
贡献率(%)
累计贡献率(%)
1
304.2579
87.2948
2
28.2761
8.1127
95.4075
3
11.4645
3.2893
98.6968
4
2.5243
0.7242
99.4210
5
1.2795
0.3671
99.7881
6
0.5287
0.1517
99.9398
7
0.2096
0.0601
100.0000
记主成分向量为
由,
知的前三个主成分分别为
因此,用前三个主成分代替原来7个变量,信息损失量较小。
进一步由与的相关系数
(5)
计算出前三个主成分与各原始变量的相关系数如下表:
主
成
分
相
关
系
数
原
变
量
表2前三个主成分与各原始变量的相关系数
0.1087
0.2576
-0.0672
-0.9994
0.0357
-0.0014
-0.1937
-0.4181
0.4675
0.0740
0.0626
0.4111
-0.1274
-0.2369
0.9585
-0.3521
-0.9299
-0.1041
-0.0613
-0.1824
0.4168
由表可看出,与相关度较高,而由相关矩阵的主成分权重系数(即特征向量中的各个值)知,太阳辐射对空气污染的影响最大;
与相关度较高,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大;
与相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大。
考虑前三个主成分的贡献率依次降低,得出结论:
影响空气污染的最重要因素为太阳辐射。
由于的方差较大,第一主成分主要由变量控制,所以所得结论与实际不符。
5.2样本相关矩阵主成分分析
利用标准化公式对原数据进行标准化处理得到一组新的数据:
即令
(6)
其中为的平均值,为的方差。
此时,由于的协方差矩阵即为的相关矩阵其中
(7)
为的协方差。
代入数据计算得到样本相关矩阵为
利用特征值计算公式代入数据可求得的特征值与单位正交化特征向量分别为
(8)
(9)
其中。
计算的各标准化主成分的贡献率及累计贡献率(如表3所示)。
表3的各标准化主成分的贡献率及累计贡献率
2.3368
33.3824
1.3860
19.7997
53.1821
1.2041
17.2012
70.3833
0.7271
10.3870
80.7703
0.6535
9.3356
90.1059
0.5367
7.6670
97.7729
0.1559
2.2271
100.00
可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.3833%。
记主成分向量为
由
则的前三个主成分分别为
由与的相关系数
(10)
计算出前三个主成分与各原始变量的相关系数如表:
表4前三个主成分与各原始变量的相关系数
-0.3681
0.3255
0.6936
0.3145
-0.6202
0.2502
0.8307
-0.0046
-0.1467
0.5927
0.5123
-0.4373
0.7452
0.2305
0.2350
0.4922
-0.6714
0.1745
0.4884
0.3553
0.6072
由表4可看出,与、相关度较高,近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。
与相关度较低,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,CO对空气污染指标y2的影响较小;
与、相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,风速和HC对空气污染的影响较大。
考虑前三个主成分的贡献率之和达到70.3833%,因此综合考虑来,和来评判影响空气污染的重要指标。
5.3差异性
从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。
从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进行主成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。
两者差距很大,并且在第二主成分中的两个系数相差更远。
因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。
为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做的主成分分析应保留4个主成分,而从协方差矩阵来看,只保留1个主成分即可。
由此可知,用协方差矩阵进行主成分分析更能简化运算。
本文中,由于设计的各变量的变化范围差异不大,因此应从先关矩阵出发求主成分比较合理。
近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。
综合考虑来,和来评判影响空气污染的重要指标。
六、模型评价
模型优点:
(1)用主成分分析方法能够较好地揭示污染物于污染程度之间的关系;
(2)该模型所用工具较易操作;
(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。
所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;
能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;
得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。
(4)方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。
模型缺点:
(1)尚未考虑到其他变量的影响,存在预测误差;
(2)该模型未给出图像,难以反映各变量对空气污染程度的影响;
(3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。
模型推广:
利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成分分析法构造回归模型,把各成分作为新的自变量代替原始自变量x作回归分析。
页脚内容9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空气污染 研究 成分 分析