实验六主成分分析.docx
- 文档编号:8726555
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:15
- 大小:216.69KB
实验六主成分分析.docx
《实验六主成分分析.docx》由会员分享,可在线阅读,更多相关《实验六主成分分析.docx(15页珍藏版)》请在冰豆网上搜索。
实验六主成分分析
实验六主成分分析
一、实验目的
通过本次实验,掌握SPSS及ENVI的主成分分析方法。
二、有尖概念
1-主成分分析的概念
主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相矢的综合指标的多元统计分析方法。
代表各类信息的综合指标就称为因子或主成份。
主成分分析的数学模型可写为:
=绚內+C111X2+5x3+...+CllmXm
S=M21X]+Cl22x2+CI23X3+•••+a2mxm
Z3=勺內+5小+如勺+・・・+%//
S=+aU2X2+心3X3+・・•+
其中,X1.X2.X3・x4—XB为原始变量;Zi.z2.Z3,z4—Zn为主成份5且有mNn。
写成矩阵形式为:
Z=AXoZ为主成份向量,A为主成份变换矩阵,X为原始变量向量。
主成份分析的目的是把系数矩阵A求出,主成份ZlZ2、Z3…在总方差中所占比重依次递减。
从理论上讲呼n即有多少原始变量就有多少主成份,但实际上前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。
因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。
如果因子分析结果保证了因子之间的正交性(不相尖)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。
进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。
如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。
2.因子提取方法
SPSS提供的因子提取方法有:
①Principalcomponents主成份法。
该方法假设变量是因子的纯线性组合。
这是SPSS最通用的因子提取方法,故因子分析有时又称为主成份分析。
©Unweightedleastsquare不加权最小平方法°该方法使观测的和再生的相尖阵之差的平方最小。
©Generalizedleastsquare用变量的单值加权5使观测的和再生的相尖阵之差的平方
最小°
©Maximumlikelihood最大似然法。
此方法不要求多元正态分布°给出参数估计,如果样本来自多元正态总体它们与原始变量的相矢阵极为相似。
5Principalaxisfactoring使用多元相尖的平方作为对公因子方差的初始估计。
6Alphafactoringa因子提取法
3.因子旋转方法
SPSS提供的因子旋转方法有:
©None不进行旋转。
此为系统默认的选择项。
©Varimax方差最大旋转。
3Equamax平均正交旋转°
4Quartmax四次方最大正交旋转。
5DirectOblimin斜交旋转,指定此项可以在下面的矩形框中键入Delta值,该值应该在0〜之间,是因子映象自相矢的围。
0值产生最高相矢因子,大负数产生旋转的结果与正交接近。
三、实验容
1.在市宝山、吴淞地区的环境质量综合评价中,对20个监测点的大气、地面水和土壤要素进行监测,得到三种要素的实测超标倍数数据。
本实验对这批资料进行主成份分析,为进一步进行环境综合分析作准备。
2.对2009年钱塘江湾TM影像进行主成分分析
四、实验步骤
(一)SPSS主成分分析
1・主成分分析的基本步骤
(1)打开F:
\SPSS实习\主成份分析.saw文件,选择Analyze菜单下的DataReduction的Factor项,展开主对话框。
(2)在左侧源变量框中选取“大气超标倍数”、“地面水超标倍数”“土壤
超标倍数”变量,进入Variables框中,作为参与因子分析的变量。
(3)单击Descriptives按钮,展开相应的子对话框。
在Statistics组中选取Initialsolution选择项,显示初始分析结果,给出原始变量的公因子方差、与变量数目相等的因子、各因子的特征值、各因子特征占总方差的百分比以及累积百分比CorrelationMatrix组中选取Coefficients,M示原始变量相尖系数矩阵。
按Continue返回主对话框。
Statistics
FactorAnalysis;Descriptives
Continue
hinivaLriatAdescripti归0Initialsolution
1^8
ofsphericity
LorrelationMatrix
IV|Coefficients
Significanceleve;
ReterminAxttriKFilOandBartletVs
(Statistics组中的Univariatedescriptive项要求给出各变量的均数和标准差;
CorrelationMatrix组提供以下几种检验变量是否适合作因子分析的方法:
(4)单击Extraction按钮,展开相应的子对话框。
在Method组中选择Principalcomponents主成份法作为提取公因子的方法;在Extract组中选取Numberoffactors,并在其右侧框中输入<2,,指定提取公因子的数目为2;在Display组中选取L*nrotatedfactorsolution及Screenplot选项,要求显示未经旋转的因子提取结果因了载荷碎石图;Maximumiterationsfor
convergence为因子分析收敛的最大迭代次数5系统默认为25;按Continue返回主对话
FactorAnalysis:
Extraction
Analyze
Correlationmatrix
Method: PrincipaIcomponerrts Display 叵Unrotatedfactorsolution 叼Screeplot Extract O£igenvaluesover: •Numberotfactors: 2 25 Continue Help MaximumIterationsforConvergence: (5)单击Scores按钮‘展开相应的子对话框°选取Saveasvariables选项‘即要 求将因子得分作为新变量保存在数据文件中;在Method组选取Regression选项,即因子的得分用回归法5其因子得分的均值为0(RegressionMethod: Amethodforestimatingfactorscorecoefficients.Thescoresthatareproducedhaveameanof0andavarianceequaltothesquaredmultiplecorrelationbetweentheestimatedfactorscoresandthetruefactorvalues-Thescoresmaybecorrelatedevenwhenfactorsareorthogona1・);选取Displayfactorscorecoeffientmatrix,显示因子得分系数矩阵;按Continue 返回主对话框 FactorAnalysis: FactorScores 0Saveasvariables Method Regression QBartlett ••Anderson-Rubin 叼bispleyfactorSGorecoefficientmatrix ContinueCancelHelp (6)单击OK,提交运行。 (7)输出结果分析0 2.主成分分析结果分析 输出结果分析如F列表6.1〜表6.6所示: 表6-1给出了三个原始变量的相尖系数矩阵o 表6.1 CorrelationMatrix 大气超标倍数 地面水超标倍数 土壤超标倍数 Correlati大气超标倍数 1.000 .124 .279 on 地面水超标倍数 .124 1.000 .613 土壤超标倍数 •279 .613 1.000 表6.2第二列给出原始变量的公因子方差,三个均为1,三个变量的公因子方差之总和为 3;第三列绐出的是使用两个因子代替原始变量后对各原始变量方差 解释的百分比O 表6.2Communalities Initial Extraction 大气超标倍数 1.000 .987 地面水超标倍数 1.000 .839 土壤超标倍数 1.000 .808 ExtractionMethod: PrincipalComponentAnalysis. 表6.3为方差解释表。 第一列为主成份名,第二、三、四列分别为第一•二、三主成份的特征值、方差百分比、方差累积百分比;后三列为选用两个主成份时的特征值、方差百分比•方差累积百分比。 表6.3 TotalVarianceExplained Component InitialEigenvalues ExtractionSumsofSquaredLoadings Total %of Variance Cumulativ e% Total %of Variance Cumulativ e% 1 2 3 1.726 .908 .366 57.536 30.269 12.194 57.536 87.806 100.000 1.726 .908 57.536 30.269 57.536 87.806 ExtractionMethod: PrincipalComponentAnalysis. 表6.4为因子矩阵表。 给岀原始变量对第一、第二主成份的贡献。 表6.4 ComponentMatrix(a) Component 1 2 大气超标倍数 .484 .867 地面水超标倍数 .835 376 土壤超标倍数 .891 -.119 ExtractionMethod: PrincipalComponentAnalysis*a2componentsextracted• 表6.5为因子得分系数矩阵。 给出第一、第二主成份与原始变量的尖系。 根 据该矩阵可以写出因子的表达式为: Factorl=0.281*xl*+0・484*x2*+0・516*x3* Factor2=0.955*xl*・0.414*x2*・0.131*x3* 可以说,用这两个因子代替三个原始变量,可以概括原始变量所包含信息的 87.806%。 表6.5 ComponentScoreCoefficientMatrix Component 1 2 大气超标倍数 .281 .955 地面水超标倍数 .484 -.414 土壤超标倍数 .516 -.131 ExtractionMethod: PrincipalComponentAnalysis・ ComponentScores・ 表6.6给岀了两主成份间的协方差矩阵。 表6.6 ComponentScoreCovarianceMatrix Component 1 2 1 1.000 .000 2 .000 1.000 ComponentScoreCovarianceMatrix Component 1 2 1 1.000 .000 2 .000 1.000 ExtractionMethod: PrincipalComporientAnalysis- ComponentScores・ 图6.1可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大,可以初步得岀提取两个因子将能槪括绝大部分信息。 ScreePlot ComponentNucaber 图6.1 注: 在“FactoH二0.281*xl*+0.484*x2*+0・516*x3* 及Factor2=0.955*xl*・0.414*x2紅0.131*x3*,>中的xl*\x2*\x3*\变量是原始变量做了均值为0处理后的新变量。 (二)ENVI主成分分析 1.打开LT51180392009262BJC00下的Bl・6及B7,用BasicTools下的LayerStacking进行6波段叠合(如图6・2,拾取ImportFile选择叠合的波段,拾取ReorderFiles对波段进行排序,建议按B1—B7顺序),并选择OutputResulttoF订e,将结果输出到QTRiver文件。 SelectedFilesforLayerStacking: .0392*******A70.TIF[Band1]IS118039039200凶919£恐删训艮納汽^? *18039_03920090919_B40・TIF[Band1]LSI180395)3920090919A30x^f|lBsincl1]I£118039j: i39200g0919J: 20.TIF[Band1]八 ResamplingNearestNeighbor Lat/Lon OK11CancelI ImportFile..・ReorderFiles... Delete StPlane11QTAD27)StatePlane(NAD83)Argentins・Zone1Argentina-Zone2Argentina~Zone3 WGS- IUnits.-・卩叹 OutputFileRange: 0Inclusive: rangeencompassesallthefiles Exclusive: rangeencompassesfileoverlap Zone'I SetZone・・・ OutputResulttoQFile Memory XPixel Size30.00000000 Meters EnterOutputFilenameChoose YPixel Size30.00000000 Meters 图6-2 2.用ROITOOLS选择一块鳳兴趣区(建议选择地类比较全的部分),并将子集存为subset文件。 3.ENVI[Transform]->[PrincipalComponents! ・〉[ForwardPCRotate正向PC旋转】・〉[ComputeNewStatisticsandRotate],展开如图所示对话框,选中文件,并进行空间子集、光谱子集以及掩膜设置后,按0K,进入如图6-3所示对话框。 SelectInputFile! FileInformation: Isubset' File: C: VF垫\LT511803920092&2RTCOO/ Dims: 1186") r843*x6[BSQ] Size: [Byte]5,998,788bytes・ FileType ENVIStandard SensorType Uitkaown ByteOrder Hostdutel) Projection ITT叽Zone51HortL Pixel 30Meters Datum XGS-84 Xavfelength Nene UpperLeftCorner: 2685.3372 D^scription FileResizeResult,x resizefactor;1.000000^yr«siz«: f&ctor: 1.000000.[We&內ar14 21: 15: 202012] SpatialSubset FullScene SpectralSubset 6/6Bands 图6-3 ForwardPCParameters 图6-4 4.在图6-4对话框的StatsSubset中,输入小于1如0.1的值,表示在统计计算时只用到十分之一像元(也可保持缺省值不变,表示统计全部像元),在OutputStatsFilename中输入FTstats,gp将统计结果放入该文件5并在"SelectSubsetfromEigenvalues"中选择Yes,统计信息将被计算,并出现如图6-5SelectOutputPCBands对话框。 该对话框中列出每个波段和其相应的特征值,同时也列出每个主成分波段中包含的数据方差的累积百分比。 在"NumberofOutputPCBands"文本框中,键入一个数字或点击箭头按钮,确定要输出的波段数,此处可选3,也可保持6不变,看主成份结果图。 可以看出,前三个主成份占了原始6个波段信息的98%以上,因此完全可以用前三个主成份来代替原始6个波段来进行后续的分类处理。 OKCarteel ◎SelectOutputPCBands Eigenvalue Percent 1252.9294 &9.62% 377.7886 90.6U 146.4036 98.74% 15.0163 99.58%. 6.3403 99•磁 1.2438 100.00%. K123456 NumberofOutputPCBands 图6-5 5. 回l・Al 用[BasicTools]->[Statistics]->[ViewstatisticsFile]二具查看PCStats,sta文件信息,在对话框的SelectPlot中,拾取Engevalus,展开如图6-6所示对话框,上方图表示各主成份的值。 QStatsFile: C: \钱塘江湾\LT5"80392009262BJC00\PC・Stats・sta FileOptions A丄u订 Min Max Mean Stdev Num Eigenvalue 68 255 89.681072 13.930253 1 1265.428406 26 177 41.087035 7.677076 2 381.348792 21 207 41.368347 11.408403 3 147.366317 16 186 62.193377 19.843377 4 15.330442 6 255 62.983193 28.274721 5 6.044729 3 147 30.409764 15.505121 6 1.250626 Band 1 Band2 Band3 Band4 Band5 194.051952 99・893293 139.115587 15.743120 129.208646 99.893293 58.937497 84.287998 10.484118 49.530327 139.115587 84.287998 130.151650 -11.457030 37.044110 二23456addddddtnnnnnnSana c123ndddannnl&ar 图6-6 原始子影像RGB用Band5、4>3显示的效果图 RGB显示第三、第二、第一主成分的效果图 图6-7 五、思考与练习 1.对’’某地区主要污染源数据p.xls”中的各污染物排放指标进行主成分分 析,并说明分析结果;再用主成份分析结果进行聚类分析,与实验四结果进行对比分析。 2.参照《中国地级以上城市腹地的测度分析》,试采用ArcGIS分析工具,分析’’某地区主要污染源数据p.xls冲各污染源的影响围。 3.查看各组成分(GrayScale或RGBcolor方式),并与原始各波段数据作对比分析,再用IsoData或K-Means等非监督分类法对PC转换前与转换后数据进行分类,最后分析同一种非监督分类法对转换前后数据的分类结果进行对比分析o有兴趣的同学,可以尝试用最小距离、最大似然法、平行六面体、SAM等监督分类方法对转换前后数据进行分类对比分析(可结合Googleearth时间回溯工具,找到与TM影像同期(或时间相差不大)Googleearth的感兴趣区域作为groundtruth,结合目判读等方法来做)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 成分 分析