多元统计分析优秀课程设计Word格式.docx
- 文档编号:14360464
- 上传时间:2022-10-22
- 格式:DOCX
- 页数:22
- 大小:204.47KB
多元统计分析优秀课程设计Word格式.docx
《多元统计分析优秀课程设计Word格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析优秀课程设计Word格式.docx(22页珍藏版)》请在冰豆网上搜索。
将原有变量综合成少数多个因子是因子分析关键内容。
若存在随机向量及,使
简记为,且
(1)(标准化);
(2)(中心化);
(3)(不相关)。
那么,称指标向量含有正交因子结构(全部因子相互正交,即);
称此模型为正交因子模型;
称为公共因子(对整个有影响公共原因);
称为特殊因子(只正确各对应分量有影响特殊原因);
称为因子载荷矩阵,为第个指标在第个公共因子上载荷。
因子载荷矩阵建立
因子分析最基础任务之一就是建立因子载荷矩阵。
对于正交因子模型,有
若已标准化,则
在绝大多数实际问题中,往往全部是未知,由此求出是不可能,这时能够经过主成份分析给出一组公共因子及其因子载荷矩阵。
具体方法以下:
(1)求出特征根,和对应单位特征向量。
(2)建立主成份。
是正交矩阵。
(3)结构公共因子,并建立因子载荷矩阵。
(逆问题)
令
轻易验证:
含有以下正交因子结构:
(?
)
完全忽略了特殊因子影响。
若只取前个主成份,且令
,,
则有
其中。
忽略了不关键公共因子,由特殊因子解析。
换句话说,用主成份法取得了正交因子分解(近似)中。
这里关键问题是怎样确定因子数k
方法一:
依据特征值确定因子数。
观察各个特征值,通常取特征值大于1。
方法二:
依据因子累计方差贡献率确定因子数。
通常选择累计方差贡献率大于0.85时特征值个数为因子个数k。
使因子含有命名解释性
实际分析工作中大家总是期望对因子实际含义有比较清楚认识。
未处理这个问题,可经过因子旋转方法使一个变量只在尽可能少多个因子上有比较高载荷。
最理想状态下,使某个变量在某个因子上载荷趋于1,在其它因子上载荷趋于0。
这么,一个因子就能够成为某个变量经典代表,于是因子实际含义也就清楚了。
因子正交旋转
当指标向量含有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。
对任一阶正交矩阵,有
则
利用正交因子分解这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵以后,再对其作合适正交变换(几何解释:
因子轴旋转),以使得因子载荷矩阵含有更简练、更理想(近乎分块对角矩阵形式)结构,公共因子向量含有更显著、更直观实际意义,正交因子分解更合理、更能反应客观实际。
现在,已经提出了多种因子旋转方法。
比较常见一个是方差极大因子轴正交旋转法,简称方差极大法。
先考虑两个公共因子平面正交旋转。
含有更理想、更简化结构,即使其各列因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。
各载荷值可正可负,依靠程度也不一样,消除其影响:
(规格化)
正交旋转目标就是要使新因子载荷矩阵各列方差之和(总方差)
达成最大。
记
则可由下式确定:
tg
且符号可由符号确定:
当公共因子数时,需要对因子载荷矩阵中列因子载荷向量配两两对旋转,共旋转次。
列。
先确定,后旋转。
仅列元素改变。
全部列两两配对旋转完成后,就完成了第一轮旋转。
假如因子载荷矩阵还不能达成要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。
每经一轮旋转,全部可算出因子载荷矩阵总方差。
是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。
实际中,通常旋转到总方差改善不大,即
(给定精度)
时,旋转停止。
最终,取作为最终因子载荷矩阵。
计算因子得分
因子得分是因子分析最终表现。
在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本观察上具体数值,这些数值称为因子得分,形成变量称为因子得分变量。
于是,在以后分析中就能够因子得分变量替换原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题目标。
,,,
,
3.实证分析
3.1指标:
废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量
3.2原始数据:
地域
废水排放总量
化学需氧量排放总量
氨氮排放总量
二氧化硫排放总量
氮氧化物排放总量
烟尘灰尘排放总量
北京
15.07
16.88
1.9
7.89
15.1
5.74
天津
8.94
21.43
2.45
20.92
28.23
13.95
河北
30.98
126.85
10.27
118.99
151.25
179.77
山西
14.5
44.13
5.37
120.82
106.99
150.68
内蒙古
11.19
84.77
4.93
131.24
125.83
102.15
辽宁
26.29
121.7
10.01
99.46
90.2
112.07
吉林
12.22
74.3
5.31
37.23
54.92
47.51
黑龙江
14.96
142.39
8.49
47.22
73.06
79.35
上海
22.12
22.44
4.46
18.81
33.28
14.17
江苏
60.12
110
14.25
90.47
123.26
76.37
浙江
41.83
72.54
10.32
57.4
68.79
37.97
安徽
27.23
88.56
10.05
49.3
80.73
65.28
福建
26.06
62.98
8.93
35.6
41.17
36.79
江西
20.83
72.01
8.6
53.44
54.01
46.23
山东
51.44
178.04
15.5
159.02
159.33
120.81
河南
42.28
131.87
13.9
119.82
142.2
88.21
湖北
30.17
103.31
12.04
58.38
58.02
50.4
湖南
31
122.9
15.44
62.37
55.28
49.62
广东
90.51
167.06
20.82
73.01
112.21
44.95
广西
21.93
74.4
7.93
46.66
44.24
40.29
海南
3.94
19.6
2.29
3.26
9.5
2.32
重庆
14.58
38.64
5.13
52.69
35.5
22.61
四川
33.13
121.63
13.47
79.64
58.54
42.86
贵州
11.09
32.67
3.8
92.58
49.11
37.79
云南
15.75
53.38
5.65
63.67
49.89
36.68
西藏
0.54
2.79
0.34
0.42
4.83
1.39
陕西
50.49
5.82
78.1
70.58
70.91
甘肃
6.6
37.32
3.81
57.56
41.84
34.58
青海
2.3
10.5
0.98
15.43
13.45
23.99
宁夏
3.73
21.98
1.66
37.71
40.4
23.92
新疆
67.02
4.59
85.3
86.28
81.39
3.3数据起源:
《中国环境年鉴》
3.4分析过程:
利用SPSS软件进行分析,首先录入数据,然后一次进行以下处理:
一、考察原有变量是否适合进行因子分析
首先考察搜集到原有变量之间是否存在一定线性关系,是否适合采取因子分析。
这里借助变量相关系数矩阵进行分析。
表一是原有变量相关系数矩阵。
能够看到:
大部分相关系数全部较高,各变量呈较强线性关系,能够从中提取公共因子,适合进行因子分析。
表一
相關性矩陣
废水排放总量单位:
亿吨
化学需氧量排放总量单位:
万吨
氨氮排放总量单位:
二氧化硫排放总量单位:
氮氧化物排放总量单位:
烟尘灰尘排放总量单位:
相關
1.000
.762
.913
.424
.612
.277
.906
.647
.773
.592
.519
.650
.394
.903
.842
.864
二、提取因子
这里首优异行尝试性分析:
依据原有变量相关系数矩阵,采取主成份分析提取因子并选择大于1特征值,分析结果如表2所表示。
表二
Communalities
起始
擷取
.923
.892
.971
.908
.953
.931
擷取方法:
主體元件分析。
表二显示了在指定提取2个变量共同度数据。
第一列数据是因子分析初始解下变量共同度,它表明:
假如对原有7个变量采取主成份分析方法提取全部特征值,那么原有变量全部方差全部可被解释,变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 优秀 课程设计