利用Matlab和SPSS实现主成分分析.docx
- 文档编号:30372073
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:17
- 大小:150.79KB
利用Matlab和SPSS实现主成分分析.docx
《利用Matlab和SPSS实现主成分分析.docx》由会员分享,可在线阅读,更多相关《利用Matlab和SPSS实现主成分分析.docx(17页珍藏版)》请在冰豆网上搜索。
利用Matlab和SPSS实现主成分分析
§9.利用Matlab和SPSS实现主成分分析
1.直接调用Matlab软件实现
在软件Matlab中实现主成分分析可以采取两种方式实现:
一是通过编程来实现;二是直接调用Matlab中自带程序实现。
通过直接调用Matlab中的程序可以实现主成分分析:
[pc,score,variance,t2]=princomp(X)
式中:
X为输入数据矩阵
_xi
x1m
x2m
Xnm-(一般要求n>m)
1pc主分量fi的系数,也叫因子系数;注意:
pcTpc=单位阵
2score是主分量下的得分值;得分矩阵与数据矩阵X的阶数是一致的;
3varianee是score对应列的方差向量,即A的特征值;容易计算方差所占的百分比
1X12
X21X22
_XniXn2
输出变量:
percent-v=100*variance/sum(varianee);
④t2表示检验的t2-统计量(方差分析要用)
计算过程中应用到计算模型
■fj
[
xj
f2
aT
X2
I-
=A
Jp一
1
xm
(要求p 例: 表1为某地区农业生态经济系统各区域单元相关指标数据,运用主成分 分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状况。 表1某农业生态经济系统各区域单元的有关数据 样本 序号 X1: 人口密度 2(人/km) X2: 人均耕 地面积(ha) X3: 森林覆 盖率(%) X4: 农民人均纯收入(元 /人) X5: 人均粮 食产量(kg/人) X6: 经济作物占农作物播面比例 (%) X7: 耕地占土地面积比 率(%) X8: 果园与林地面积之 比(%) X9: 灌溉田占耕地面积之比(%) 1 363.912 0.352 16.101 192.11 295.34 26.724 18.492 2.231 26.262 2 141.503 1.684 24.301 1752.35 452.26 32.314 14.464 1.455 27.066 3 100.695 1.067 65.601 1181.54 270.12 18.266 0.162 7.474 12.489 4 143.739 1.336 33.205 1436.12 354.26 17.486 11.805 1.892 17.534 5 131.412 1.623 16.607 1405.09 586.59 40.683 14.401 0.303 22.932 6 68.337 2.032 76.204 1540.29 216.39 8.128 4.065 0.011 4.861 7 95.416 0.801 71.106 926.35 291.52 8.135 4.063 0.012 4.862 8 62.901 1.652 73.307 1501.24 225.25 18.352 2.645 0.034 3.201 9 86.624 0.841 68.904 897.36 196.37 16.861 5.176 0.055 6.167 10 91.394 0.812 66.502 911.24 226.51 18.279 5.643 0.076 4.477 11 76.912 0.858 50.302 103.52 217.09 19.793 4.881 0.001 6.165 12 51.274 1.041 64.609 968.33 181.38 4.005 4.066 0.015 5.402 13 68.831 0.836 62.804 957.14 194.04 9.110 4.484 0.002 5.790 14 77.301 0.623 60.102 824.37 188.09 19.409 5.721 5.055 8.413 15 76.948 1.022 68.001 1255.42 211.55 11.102 3.133 0.010 3.425 16 99.265 0.654 60.702 1251.03 220.91 4.383 4.615 0.011 5.593 17 118.505 0.661 63.304 1246.47 242.16 10.706 6.053 0.154 8.701 18 141.473 0.737 54.206 814.21 193.46 11.419 6.442 0.012 12.945 19 137.761 0.598 55.901 1124.05 228.44 9.521 7.881 0.069 12.654 20 117.612 1.245 54.503 805.67 175.23 18.106 5.789 0.048 8.461 21 122.781 0.731 49.102 1313.11 236.29 26.724 7.162 0.092 10.078 对于上述例子,Matlab进行主成分分析,可以得到如下结果 ①以及每一个主成分的贡献率和累计贡献率,如表2和图1 表2.特征根及主成分贡献率 主成分 1 4.661 特征值 贡献率% 51.791 累积贡献率% 51.791 2 2.089 23.216 75.007 3 1.043 11.589 86.596 4 0.507 5.638 92.234 5 0.315 3.502 95.736 6 0.193 2.140 97.876 7 0.114 1.271 99.147 8 4.533E-02 0.504 99.650 9 3.147E-02 0.350 100.000 ScreePlot 5 ComponentNumber 特征根 ②前3几个主成分的载荷系数如表3所示。 表3前三个主成分在原变量上的载荷 前三个主成分 1 2 3 变量 X1 0.158 -0.255 -0.059 X2 0.026 0.424 -0.027 X3 -0.207 0.046 0.091 X4 0.009 0.415 0.036 X5 0.174 0.212 -0.011 X6 0.176 0.086 0.120 X7 0.200 -0.064 -0.241 X8 0.042 -0.048 0.930 X9 0.207 -0.012 0.088 2.直接调用SPSS软件实现 多元分析处理的是多指标的问题。 由于指标太多,使得分析的复杂性增加。 观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。 由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。 调用DataReduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。 基本操作 以以上例子来说明在SPSS中进行因子分析的整个过程。 将以上数据导入到数据窗口中,先定义各变量为numberic型。 ①激活Analysis菜单选DataReduction的Factor...命令项,弹出FactorAnal ysis对话框(图1)。 在对话框左侧的变量列表中选变量X1至X9,点击钮使 之进入Variables框。 图1因子分析对话框 点击Descriptives..钮,弹出FactorAnalysis: Descriptives对话框(图2),在Statistics中选Univariatedescriptives项要求输出各变量的均数与标准差,在CorrelationMatrix栏内选Coefficients项要求计算相关系数矩阵,并选KMOandBartlett'stestofsphericity项,要求对相关系数矩阵进行统计学检验。 点击Continue钮返回FactorAnalysis对话框。 图2描述性指标选择对话框 点击Extraction...钮,弹出FactorAnalysis: Extraction对话框(图3),系统提 供如下因子提取方法: 2£1 FactorAnalysis: Extraction UnweightedleastsquaresGeneralizedleastsquaresMaximumlikelihoodPrincipalaxisfactoring為Iph刘factoiing Extract 金Eigenvaluesover: 1 |_Numberoffactors: MaximumIterationsforConvergence: 25 图3因子提取方法选择对话框 Principalcomponents: 主成分分析法; Unweightedleastsquares未加权最小平方法; Generalizedleastsquares综合最小平方法; Maximumlikelihood: 极大似然估计法; Principalaxisfactoring: 主轴因子法; Alphafactoring: a因子法; Imagefactoring: 多元回归法。 本例选用Principalcomponents方法,之后点击Continue钮返回FactorAnalysis对话框。 点击Rotation...钮,弹出FactorAnalysis: Rotation对话框,系统有5种因子 旋转方法可选: None: 不作因子旋转; Varimax: 正交旋转; Equamax: 全体旋转,对变量和因子均作旋转; Quartimax: 四分旋转,对变量作旋转; DirectOblimin: 斜交旋转。 旋转的目的是为了获得简单结构,以帮助我们解释因子。 本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。 点击Scores..钮,弹出弹出FactorAnalysis: Scores对话框,系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。 结果解释 在输出结果窗口中将看到如下统计数据: 系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有21例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett 检验表明: Bartlett值=159.767,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。 DescriptiveStatistics Mean Std.Deviation AnalysisN x1: 人口密度(人/km2) 113.0760 64.25654 21 x2: 人均耕地面积(ha) 1.00981 .43421 21 x3: 森林覆盖率(%) 55.01781 17.88164 21 x4: 农民人均纯收入 1067.000 405.6333 21 (兀/人) x5: 人均粮食产量 (kg/人) 257.2976 99.4713 21 x6: 经济作物占农作物播面比例(%) 16.64314 9.24956 21 x7: 耕地占土地面积比率(%) 6.72110 4.45715 21 x8: 果园与林地面积之比(%) .90533 1.93672 21 x9: 灌溉田占耕地面积之比(%) 10.35610 7.30063 21 CorrelationMatrix 人口密度 人均耕 地面积 森林覆 盖率 农民人均纯收入 人均粮食产量 经济作物占农作物播面比例 耕地占土地果园与林地 灌溉田占耕地面积之比 面积比率 面积之比 人口密度 1.000 -.327 -.714 -.336 .309 .408 .790 .156 .744 人均耕地面积 -.327 1.000 -.035 .644 .420 .255 .009 -.078 .094 森林覆盖率 -.714 -.035 1.000 .070 -.740 -.755 -.930 -.109 -.924 农民人均纯收入 -.336 .644 .070 1.000 .383 .069 -.046 -.031 .073 人均粮食产量 .309 .420 -.740 .383 1.000 .734 .672 .098 .747 经济作物占农作物播面 .408 .255 -.755 .069 .734 1.000 .658 .222 .707 比例耕地占土地面积比率 .790 .009 -.930 -.046 .672 .658 1.000 -.030 .890 果园与林地面积之比 .156 -.078 -.109 -.031 .098 .222 -.030 1.000 .290 灌溉田占耕 地面积之比 .744 .094 -.924 .073 .747 .707 .890 .290 1.000 KMOandBartlett'sTest Kaiser-Meyer-OlkinMeasureofSamplingAdequacy. .759 Bartlett'sTestof Approx.Chi-Square 159.767 Sphericity df 36 Sig. .000 Communalities Initial Extraction x1: 人口密度(人/km2) 1.000 .832 x2: 人均耕地面积(ha) 1.000 .803 x3: 森林覆盖率(%) 1.000 .947 x4: 农民人均纯收入 (元/人) 1.000 .757 x5: 人均粮食产量 1.000 .858 (kg/人) x6: 经济作物占农作 1.000 .718 物播面比例(%) x7: 耕地占土地面积比率(%) 1.000 .952 x8: 果园与林地面积 1.000 .990 之比(%) x9: 灌溉田占耕地面 1.000 .938 积之比(%) ExtractionMethod: PrincipalComponentAnalysis. 使用主成分分析法得到3个因子,因子矩阵(FactorMatrix)如下,变量与 某一因子的联系系数绝对值越大,则该因子与变量关系越近。 如本例变量X3与 第一因子的值为-0.964,与第二因子的值为0.00956,可见其与第一因子更近,与第二因子更远。 或者因子矩阵也可以作为因子贡献大小的度量,其绝对值越大,贡献也越大。 TotalVarianceExplained ExtractionMethod: PrincipalComponentAnalysis. Component 1 2 3 x1: 人口密度(人/km2) .739 -.532 -6.11E-02 x2: 人均耕地面积(ha) .123 .887 -2.82E-02 x3: 森林覆盖率(%) -.964 9.561E-02 9.486E-02 x4: 农民人均纯收入(元/人) 4.164E-02 .868 3.702E-02 x5: 人均粮食产量 (kg/人) .813 .444 -1.09E-02 x6: 经济作物占农作物播面比例(%) .819 .179 .125 x7: 耕地占土地面积比率(%) .933 -.133 -.251 x8: 果园与林地面积 .197 -.100 .970 之比(%) x9: 灌溉田占耕地面积之比(%) .964 -2.50E-02 9.167E-02 ComponentMatrix a ExtractionMethod: PrincipalComponentAnalysis. a.3componentsextracted. 下面显示经正交旋转后的因子负荷矩阵(RotatedFactorMatrix)和因子转换 矩阵(FactorTransformationMatrix)。 旋转的目的是使复杂的矩阵变得简洁,即第一因子替代了X1、X3、X7、X9作用,第二因子替代了X2、X4的作用,第三因子替代了X8的作用。 Component 1 2 3 x1: 人口密度(人/km2)「 .773 -.483 4.383E-02 x2: 人均耕地面积(ha) 7.021E-02 .891 -5.36E-02 x3: 森林覆盖率(%) -.972 3.427E-02 -1.57E-02 x4: 农民人均纯收入(元/人) -1.71E-02 .870 2.953E-03 x5: 人均粮食产量 (kg/人) .780 .496 5.874E-02 x6: 经济作物占农作物播面比例(%) .787 .238 .206 x7: 耕地占土地面积比率(%) .962 -7.93E-02 -.141 x8: 果园与林地面积之比(%) 9.301E-02 -5.10E-02 .989 x9: 灌溉田占耕地面积之比(%) .947 4.299E-02 .198 RotatedComponentMatrix a ExtractionMethod: PrincipalComponentAnalysis.RotationMethod: VarimaxwithKaiserNormalization. a.Rotationconvergedin4iterations. fac2_1、第三因子的因子分用变量名fac3_1存入原始数据库中。 这些值既可用于模型诊断,又可用于进一步分析。 序号 fac11 fac21 fac31 1 2.44059 -2.5297 0.22488 2 1.83184 1.70832 0.2086 3 -0.60361 0.34 3.5704 4 0.92987 0.69627 0.23949 5 2.19416 1.71331 -0.31645 6 -0.86759 1.54692 -0.48955 7 -0.5842 -0.22985 -0.42651 8 -0.78014 1.30071 -0.25939 9 -0.49636 -0.32259 -0.32165 10 -0.40401 -0.28393 -0.34677 11 -0.18605 -1.03707 -0.39139 12 -0.86194 -0.08865 -0.50159 13 -0.65298 -0.29151 -0.44309 14 -0.44842 -0.61578 2.11487 15 -0.77951 0.25268 -0.37101 16 -0.5935 -0.28171 -0.50773 17 -0.27747 -0.24832 -0.36976 18 -0.0078 -0.82586 -0.45226 19 0.03339 -0.5882 -0.4911 20 -0.14661 -0.20895 -0.41245 21 0.26035 -0.0061 -0.25752
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 Matlab SPSS 实现 成分 分析