二多因子分析原理及功能.docx
- 文档编号:5078722
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:50
- 大小:192.88KB
二多因子分析原理及功能.docx
《二多因子分析原理及功能.docx》由会员分享,可在线阅读,更多相关《二多因子分析原理及功能.docx(50页珍藏版)》请在冰豆网上搜索。
二多因子分析原理及功能
二、多因子分析原理及功能
1、主成分分析
1.1原理及功能
地质学中常常要作多变量的综合分析,这些变量经常是不独立的,存在复杂的相关关系,使综合分析出现困难。
为化繁为简,用一种数学方法把数目较多的变量作线性组合,组合成几个主要的新变量-主成份。
少数几个主成份即代表了所有地质变量变化的主要信息,这就大大便于进行地质分析。
以一简单例子从几何上说明主成份分析原理。
设有几个样品,每个样品有两个变量X1和X2。
在由X1、X2确定的样品空间中,N个样品点的分布如图(图1-1)。
可见变量X1和X2都有较大波动(方差较大)且二者具有明显的相关性,如果作一坐标旋转,取F1和F2为新轴,则:
(1)N个点的新坐标F1和F2的相关很小,几乎为零。
(2)在新坐标系中N个点的波动(方差)大部份归结为F1的波动,F2的波动很小,故用F2就可以反映变化的大部份信息。
以上结果可以推广到多维情况,设N个样品每个样品有P个变量,经过适当线性组合,可得出P个新变量。
这样确定的新变量F1、F2、……、Fp叫做原始变量的第1、第2、……、第P个主成份。
其中F1在总方差中占的比例最大,最主要。
其余的F2、F3、……的方差依次递减,其重要性也依次减少,这样就可以取前面少数几个主成份进行综合分析,既减少了变量个数又抓住了主要产值,
由此可见,确定主成份问题,在几何上就是要找出P维样品空间中样品点集的主轴,在代数上就是要找P个变量的协方差矩阵的特征向量。
1.2方法概要
设有m个观测样本
Xi=(xi1,xi2,…,xin)T(i=1,2,…,m)
(1)
组成一个样本本集,上式中T表示转置,为了使该样本集在降维中所引起的平方误差最小,必须进行二方面的工作:
一是找出坐标轴的最佳旋转,二是选取p个成分。
先将数据标准化:
(2)
其中:
为了叙述方便,把多维指标的样本看为多维空间中的向量。
现设有一正交旋转变换,将向量X=(x1,x2,…,xn)T变换成一个新的向量Z=(z1,z2,…,zn)T,坐标轴变换成W1,W2,…,Wn,由变换的正交性得
于是
(4)
由(3)可得
(5)
取X的p维近似
降维引起的平方误差为
对整个观测样本集
(1)取平均得
(6)
由卡胡南-洛夫(Karhunen-Loeve)展开定理可知,当{W1,W2,…,Wn}是C的规格化特征向量,且对应特征值按由大至小次序排列,即λ1≥λ2≥…≥λn≥0时,则e2取极小。
本过程用雅可比法求矩阵C的特征向量和特征值。
用下式求向量X的P个主成分:
XTWj=zj(j=1,2,…,p)(7)
1.3使用说明
远程标识符和形式参数表
PCA(m,n,p,xn,xp);
m-观测样本总数;
n-观测样本指标数;
p-选取主成分数;
xn-数组xn[1:
m,1:
n],存放观测们本数据;
xp-数组xp[1:
m,1:
p],存放观测们本的主成分。
1.4应用事例
在燕山冀北坳陷东部采得生油岩样品及油苗样品共19个(表1-1)。
今欲用因子分析研究它们之间的亲缘关系。
选取的化验分析指标是从其红外光谱谱图中获得的,它们是十二个吸收峰(波数依次为:
720、740、810、860、1030、1380、1460、1600、1700、2860、2920、2950)的光密度值。
表1-1 采自燕山中段冀北坳东部的样品
编 号
样 品
层 位
产 地
1
深灰色泥岩
下侏罗统门头沟组
河北宽城塔山
2
煤
上石炭统太原组
杜树台
3
炭质泥岩
上石炭统太原组
河北平泉杜树台
4
油 苗
下寒武统馒头组
河北平泉双1井
5
油 苗
下寒武统馒头组
河北宽城化浅1井
6
油 苗
下寒武统府君山组
河北平泉赵杖子
7
油 苗
震旦亚界下马岭组
河北宽城大东沟
8
油 苗
震旦亚界下马岭组
河北宽城大东沟
9
黑色页岩
震旦亚界下马岭组
辽东凌源龙潭沟
10
油 苗
震旦亚世铁岭组
河北承德南沟门
11
油 苗
震旦亚界铁岭组
河北宽城苇子沟
12
油 苗
震旦亚界铁岭组
河北平泉庙底下
13
黑色灰岩
震旦亚界铁岭组
河北平泉庙底下
14
黑色灰岩
震旦亚界铁岭组
河北宽城苇子沟
15
灰黑色灰岩
震旦亚界铁岭组
河北宽城苇子沟
16
灰色泥晶灰岩
震旦亚界铁岭组
辽东凌源龙潭沟
17
油 苗
震旦亚界雾迷山组
河北平泉基建沟
18
黑色白云岩
震旦亚界雾迷山组
河北平泉基建沟
19
灰色泥晶灰岩
震旦亚界高于庄组
河北板城沟
以Xij’表第1个样品第j个吸收峰的光密度值,为消除分析时各样品涂层厚薄差异的影响,实际采用的样品指标值是经以下数据变换后得到的19个样品的指标值如表1-2。
表1-2样品的指标值表
指标
样品
1
2
3
4
5
6
7
8
9
10
11
12
1
0.054
0.21
0.152
0.069
0.127
0.254
0.254
0.101
0.065
0.326
0.638
0.5
2
0.093
0.28
0.164
0.117
0.08
0.14
0.304
0.14
0.084
0.336
0.664
0.435
3
0.074
0.298
0.173
0.102
0.115
0.155
0.298
0.101
0.052
0.326
0.645
0.438
4
0.023
0.038
0.053
0.026
0.08
0.263
0.226
0.095
0.06
0.387
0.695
0.526
5
0.027
0.08
0.049
0.052
0.043
0.172
0.322
0.066
0.08
0.432
0.62
0.52
6
0.016
0.02
0.02
0.017
0.013
0.074
0.157
0.025
0.031
0.39
0.784
0.448
7
0.013
0.014
0.028
0.028
0.023
0.098
0.185
0.028
0.057
0.388
0.723
0.526
8
0.016
0.021
0.026
0.027
0.033
0.107
0.173
0.042
0.052
0.41
0.724
0.51
9
0.041
0.076
0.041
0.017
0.062
0.11
0.19
0.055
0.114
0.403
0.752
0.445
10
0.02
0.045
0.045
0.038
0.071
0.124
0.226
0.071
0.098
0.425
0.692
0.5
11
0.024
0.041
0.043
0.028
0.039
0.103
0.19
0.095
0.065
0.39
0.752
0.47
12
0.023
0.041
0.051
0.041
0.037
0.098
0.204
0.045
0.045
0.377
0.744
0.43
13
0.025
0.048
0.041
0.032
0.032
0.135
0.234
0.07
0.129
0.428
0.664
0.524
14
0.028
0.057
0.045
0.028
0.042
0.113
0.198
0.064
0.128
0.396
0.721
0.491
15
0.028
0.055
0.059
0.045
0.032
0.12
0.219
0.064
0.071
0.395
0.706
0.514
16
0.031
0.034
0.03
0.016
0.039
0.082
0.171
0.033
0.082
0.414
0.77
0.433
17
0.02
0.03
0.03
0.023
0.027
0.093
0.175
0.04
0.034
0.393
0.781
0.437
18
0.028
0.045
0.045
0.04
0.024
0.107
0.19
0.051
0.063
0.432
0.725
0.476
19
0.027
0.051
0.047
0.037
0.028
0.108
0.201
0.056
0.089
0.411
0.704
0.5
R型因子分析情况如下
(1)将表1-3中数据标准化,然后求出变量(指标)的相关系数矩阵R。
12×12阶的相关矩阵R如表
表1-3相关系数矩阵
变量
变量
1
2
3
4
5
6
7
8
9
10
11
12
1
1
0.958
0.919
0.891
0.705
0.317
0.678
0.771
0.115
-0.724
-0.499
-0.413
2
0.958
1
0.979
0.934
0.798
0.423
0.752
0.771
0.017
-0.792
-0.623
-0.309
3
0.919
0.979
1
0.933
0.838
0.518
0.736
0.803
-0.036
-0.836
-0.648
-0.231
4
0.891
0.934
0.933
1
0.653
0.365
0.819
0.769
-0.046
-0.695
-0.689
-0.197
5
0.705
0.798
0.838
0.653
1
0.74
0.625
0.74
0.063
-0.708
-0.616
-0.076
6
0.317
0.423
0.518
0.365
0.74
1
0.576
0.621
0.035
-0.392
-0.689
0.417
7
0.678
0.752
0.736
0.819
0.625
0.576
1
0.734
0.18
-0.386
-0.898
0.115
8
0.771
0.771
0.803
0.769
0.74
0.621
0.734
1
0.204
-0.585
-0.646
-0.003
9
0.115
0.017
-0.036
-0.046
0.063
0.035
0.18
0.204
1
0.325
-0.286
0.271
10
-0.724
-0.792
-0.836
-0.695
-0.708
-0.392
-0.386
-0.585
0.325
1
0.272
0.36
11
-0.499
-0.623
-0.648
-0.689
-0.616
-0.689
-0.898
-0.646
-0.286
0.272
1
-0.453
12
-0.413
-0.309
-0.231
-0.197
-0.076
0.417
0.115
-0.003
0.271
0.36
-0.453
1
(2)用雅可比法求出R的特征向量Uj及相应的特征值λj。
按大小顺序排列的λj值及其所占百分比如下:
序 号
λj
所占百分比
累计百分比
1
7.313
60.94
60.94
2
2.182
18.19
79.13
3
1.093
9.11
88.24
﹕
﹕
﹕
﹕
﹕
﹕
﹕
﹕
可见取两个主因子即可提取全部信息的79%以上。
我们取两个主因子(即取m=2)此时相应于λ1和λ2的两个特征向量是u1=(0.332,0.354,0.360,0.341,0.321,0.233,0.312,0.323,0.023,-0.280,-0.280,-0.041)’和u2=(-0.193,-0.146,-0.116,-0.095,0.031,0.337,0.209,0.089,0.364,0.307,-0.394,0.609)’
(3)决定取两个主因子后,由公式
算得主因子载荷及变量共同如下:
变 量
主因子1
主因子2
共 同 和
1
0.898
-0.285
0.888
2
0.958
-0.216
0.965
3
0.974
-0.172
0.978
4
0.923
-0.140
0.872
5
0.867
0.046
0.754
6
0.630
0.498
0.645
7
0.842
0.308
0.804
8
0.875
0.132
0.782
9
0.062
0.538
0.293
10
-0.758
0.453
0.780
11
-0.758
-0.582
0.911
12
-0.110
0.900
0.822
(4)经方差最大正交旋转,求得十二个变量的旋转后的因子载荷F1及F2以及其变量共同和h12如下:
变 量
F1
F2
h12
1
0.935
-0.119
0.888
2
0.981
-0.041
0.965
3
0.989
0.005
0.978
4
0.934
0.027
0.872
5
0.845
0.200
0.754
6
0.531
0.603
0.645
7
0.774
0.454
0.804
8
0.837
0.286
0.782
9
-0.035
0.540
0.293
10
-0.827
0.310
0.780
11
-0.640
-0.708
0.911
12
-0.269
0.865
0.822
可见用两个因子F1及F2不能解释第9个变量。
(5)正交旋转后样品的因子得分如下:
样 品
在F1上的得分
在F2上的得分
1
1.712
0.723
2
2.409
-0.596
3
2.345
-0.699
4
0.063
1.340
5
0.024
1.818
6
-0.832
-1.565
7
-0.810
0.083
8
-0.767
0.023
9
-0.236
-0.402
10
-0.293
0.887
11
-0.244
-0.475
12
-0.139
-1.254
13
-0.492
1.607
14
-0.380
0.470
15
-0.210
0.367
16
-0.636
-1.034
17
-0.559
-1.467
18
-0.513
-0.193
19
-0.442
0.361
(6)用因子得分作出的因子得分图分别见图1-1。
图1-1因子得分图
(7)解释:
从因子载荷图中可见在F1上载荷大的变量 有X1,X2,X,3,X4,X5,X8,彼此存在正关联的关系。
其中X2,X,3,X4是由芳核上C-H面外弯曲振动引起的,X8是由芳核的-C=-C骨架面内振动引起的。
在F1负方向载荷大的有X10,X11两个变量,它们是-CH2,-CH3的伸缩振动谱带。
故F1由负到正表征从富含-CH2,-CH3基团到富含芳烃这一过程。
19个样品在因子得分图上显然可以分成两大组。
第一大组包括1、2、3号样品,此类是暗色泥岩和煤,它们在F1上的得分高说明諠含芳烃组分。
在这一大组中样品2与样品3又更加靠近,它们都来自上石炭统太原组,在有机组分上更加一致。
第二大组包括其余的16个样品,它们是震旦亚界和下寒武统的生油岩和油苗,说明它们在有机组分上有密切的关系。
第二大组中的4号和5号样品又可自成一小组,它们是下寒武统的油苗,在F1上的得分近于0,说明其芳烃含量较一大组样品为低,它俩自成一组,看来应属于下寒武统的原生油苗。
剩下的14个样品为另一小组,它们在F1上的因子得分均为负值,说明芳烃含量更低。
而富含-CH2和-CH3基团。
在这14个样品中,除6号样品外昀是来自震旦亚界的油苗和生油岩,它们如此密切地关联,说明这些油苗具有原生性质。
下寒武统府君山组油苗(6号样品)与4号、5号样品距离较远而与震旦亚界的样品关联密切,说明该油苗很可能是它生的,其油源来自震旦亚界。
2、因子分析
2.1原理和功能
因子分析功能就是寻找影响变量间变化的主要因素,也可以用通俗的话讲就是从大量的数据中提炼出几个主要因素,它用原变量的线性组合表示,达到基本上反映大量资料所提供的信息的目的。
一般情况下,一个主因子反映了地质变量间结合关系的一种地质作用。
对样品也可以有类似的解释。
在大量的样品中组合成几个代表性的独立样品(称主因素),而每一个独立的样品看成是一个地质因素的产物。
从数学观点来看,因子分析是一种降维技术,一个变量相当于在N维空间的一个点。
N一般是很大的,加之它们之间的相关性,使之要弄清它们的规律就比较麻烦。
为了克服这一点,一个自然的想法就是采用降维的方法。
把变量放在低维空间来考虑,而且各坐标之间是相互独立的。
这样的降维使原数据中所包括的信息大部分都集中到低维空间中。
这样为研究工作提供了极大的方便。
因此,因子分析具有对大量数据进行处理、提炼的信息集成的能力。
因子分析在石油地质学中的应用就是对大量地质观测资料进行分析,并作出较为合理解释的一种变量统计方法,是研究系统分类、成因分类的重要手段。
成因是地质学研究的极其重要的内容。
因子分析方法在地质成因推理中主要功能:
1压缩原始数据
在研究地质问题中,人们在收集数据时希望尽可能的多一些,但在综合这些数据以形成成因概念时,对于错综复杂的、有时又是矛盾的数据,因子分析恰恰提供了一条科学的途径,它能在数量上大大精简原始数据但又不损失数据中包含的成因信息,这样有利于地质人员进行综合分析。
2指示成因推理方向
因子分析能够把宠杂纷乱的原始数据按成因上的联系进行归纳、整理、精炼和分类、理出几条客观的成困线索,为地质人员提供逻辑推理方向,启发思考相应的成因结论。
3分解叠加的地质过程
现实观测到的地质现象往往是多种成因过程叠加的产物,因子分析提供了一个分解叠加过程去识别每个单一地质过程的巧妙手段。
由于以上原因,因子分析在地质中的应用场广泛。
已有效地应用于沉积盆地蚀源区的研究、沉积物的粒度分析、沉积相研究、地层分析、古环境与古生态的研究、石油及天然气成因研究、油田水化学研究、有机地球化学研究及石油和天然气化探资料分析等各个方面。
根据研究问题的不同,因子分析又分成两类:
Q型因子分析—主因素分析;R型因子分析—主成分分析。
Q型分析用来研究地质体的性质、样品分类和成解释。
R型分析用于研究变量间的关系,得出集中多变量间之间关系的综合变量—主成分,即把对变量的因子分析称为R型因子分析,把对样品的因子分析称为Q型因子分析。
因子分析作为多元统计分析的一种基本方法,可以为其它多元统计分析方法。
如:
回归分析、趋势面分析、判别分析等方法提供有代表性的独立变量,从而提高了其它统计分析的效果。
2.2方法概要
有几种样品各m个变量的数据X
其中:
X=(x1,x2,……,xm)′观测数据
Y=(f1,f2,……,fp)′公因子
U=(u1,u2,……,um)′单因子
因子载荷
单因子系数
2.3说明
①因子载荷是样品或变量与公因子之间的“相关系数”。
②样品或变量Xi的方差可分解为公因子方差(A行元素平方和),单因子方差(C行元素平方和)。
两者之和是样品或变量的方差。
③A的第j列元素平方和,代表第j公因子的方差贡献,它是衡量公因子相对重要性的指标。
④特征值反映了各主因子的方差贡献,公因子数可以用累计百分比在80%以上,选取前p个主因子。
2.4应用算例
例1:
四川大铜厂砾岩铜矿产于中新生代红色盆地中,含矿层位于白垩系小坝组的底部,为紫色砾岩,部分为浅色砾岩。
砾石成分复杂,几乎反映了周围剥蚀区的所有岩性,而且剥蚀区距沉各区不远。
表2-1原始数据表
样品变量
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
12.3
23.4
8.4
1.5
7.2
0.2
0.1
2.6
44.25
26
7.9
8.5
2.4
3.9
7
2
13.6
21.2
6.4
0.2
7.4
0
5.7
8.3
37
13.2
20.2
10.8
4.5
2.5
8.2
3
15.6
14.9
9
2.2
20.5
0.4
0
7.2
30.1
36.7
16.6
7.3
4.3
2.6
0
4
18.9
16.1
3.3
0.2
7.1
1.8
0.1
6.1
46.3
11.1
10.9
9.4
4.9
5.5
7.5
5
17.6
25.1
3
0.2
8
0
0.1
4.3
41.6
13.8
13.4
11.2
7.5
3.8
8.2
6
9.2
20
2.7
2.3
7.3
1
0.2
4
53.4
17.4
15.2
5.5
5.6
0
1.9
7
10.4
32.1
6.7
0
8.4
0
0.3
2.9
39.2
20.7
15.2
6.4
6.2
4.3
7.2
8
9.8
17.4
6.6
0.1
5.4
0
1.4
6.6
52.5
15.7
11.7
7.4
4.9
2.9
4.9
9
13.8
24.7
8.7
0.7
15.4
0.4
0.8
1.3
34.2
20.5
11.8
15.4
4.3
7.1
5
10
12.9
17.9
3
0.3
7.3
0.3
0.2
7.3
50.7
16.7
12.7
9.8
3.1
5
1.3
11
11.1
17
1.7
0.1
9.8
0
0.4
8.9
51
16.1
9.8
14
2.4
1.9
4.4
12
10.3
20.6
4.7
1.2
12.7
0.3
2.3
5.1
42.7
15.4
16.5
9.8
3.5
6.3
3.3
13
10.8
21.3
10
0
9.3
0
0.7
3.5
44.4
13.8
11.9
9.9
5.6
5.8
8.2
14
12.1
22.6
8.3
0
12.5
0
0.5
0.1
43.9
9.9
12.8
11.2
5.2
3.8
12.4
15
7
12.1
4
0
4.6
0.1
0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析 原理 功能