主成份分析文档格式.docx
- 文档编号:16668678
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:22
- 大小:41.36KB
主成份分析文档格式.docx
《主成份分析文档格式.docx》由会员分享,可在线阅读,更多相关《主成份分析文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
-5.1
1969
-2.9
1970
-4.2
1971
1972
-4.1
-2.4
1973
1974
1975
-3.7
1976
-7.6
-2.2
注:
所示年份的冬季指当年12月份、翌年1月份和2月份.
我们采用如下程序作主成份分析:
datatemperat;
inputyearDecJanFeb;
cards;
1952
;
procprincompdata=temperatcovoutstat=prin;
varDecJanFeb;
procprintdata=prin;
run;
程序在DATA步中名为Temperat的数据集,该数据集包括四个变量year、Dec、Jan、Feb.
procprincomp语句用来调用princomp过程,处理的数据为Temperat(由data=表明),cov表明从协差阵出发,outstat=prin表明建立输出集名.Prin.var语句表明对Dec、Jan、Feb变量作主成份分析.
Procprint语句调用print过程用以打印outstat=prin的数据集.
当以上程序执行后,在OUTPUT窗口输出以下结果;
PrincipalComponentAnalysis
26Obsevations
3Variables
SimpleStatistics
DEC
JAN
FEB
Mean
-2.742307692
-4.592307632
-2.270376923
Std
1.859069246
1.72662979
1.960929921
CovarianceMatrix
3.456138942
0.715935462
0.966784615
0.715938462
1.375138462
0.364984315
0.364984615
3.84526154
上表给出样本协方差矩阵.
TotalVariance=8.6765230769
EigenvaluesoftheCovarianceMartrix
Eigenvalue
Dirfference
Proportion
Cumulative
PRIN1
4.79742
2.06927
0.552919
0.55292
PRIN2
2.72815
1.57720
0.314429
0.86735
PRIN3
1.15095
0.132652
1.00000
Eigenvectors
0.643587
0.709882
-0.286116
0.213039
0.192899
0.957812
0.735126
-0.6773900
-0.027085
上表给出协差阵的三个特征值分别为
λ1=4.7942,λ2=2.72815,λ3=1.15095
对应的特征向量分别为
t1=(0.6435870,0.213039,0.735126),t2=(0.709882,0.192899,-0.67390),t3=(-0.286116,0.957813,-0.27085).
由此可得第一主成份
PRIN=0.643587DEC+0.709882JAN-0.286116FEB.
第二、三个主成份类似可得,由累计特征值可知:
只要用第一、第二两个主成份就能够很好地概括这组数据了,此两个主成份解释了总方差86.7%.
最后一个表打印数据集PRIN,其中包括各观测值第一主成份和第二主成份的值,限于篇幅,不再印出.
2.因子分析
例13.5.1选拔职员对应聘人员测验6门科目:
词汇、阅读、同义词、算术、代数、微积分记为x1,x2,x3,y1,y2,y3,将所有应聘者的考试成绩作计算机处理,得样本相关阵,试对这六科成绩作因子分析.样本相关阵为
对此问题采用程序
datascore(type=corr);
type=’corr’;
inputnamc$x1x2x3y1y2y3;
;
procfactordata=score;
varx1x2x3y1y2y3;
title3’principalcomponentanalysis’;
procfactordata=scorepriors=maxn=2
preplotrotate=vplotoutstat=fact;
title3,principalfactoranalysiswithvarimaxrotation,;
procprintdata=fact;
run;
以上程序DATA步用以建立名为SCORE数据库,其类型为CORR即相关阵,其中x1,x2,x3分别表示词汇、阅读、同义词,y1,y2,y3分别表示算术、代数、微积分.
第一个PROCFACTOR语句用来调用因子分析过程对相关阵作因子分析,提取因子的方法缺省,所以作主成分因子分析.其输出结果见下表:
principalcomponentanalysis
IntialFactorMethod:
PrincipalComponents
PriorcommunalityEstimated:
ONE
EigenvaluesoftheCorrelationMatrix:
Total=6Average=1
1
2
3
4
5
6
2.601939
1.973989
0.44909
0.441947
0.276921
0.256114
Difference
0.627950
1.524899
0.007143
0.165026
0.020807
0.4337
0.3290
0.0748
0.0737
0.0462
0.0427
0.7627
0.8375
0.9112
0.9573
1.0000
2factorswillberetainedbytheMINEIGENcriterion
FactorPattern
FACTOR1
FACTOR2
0.63886
-0.64383
0.68425
-0.55009
0.65163
-0.51949
Y1
0.51949
Y2
0.55009
Y3
0.64383
Varianceexplainedbyeachfactor
FACTOR1FACTOR2
2.6019391.973989
FinalCommunalityEstimated:
total=4.575929
0.822664
0.770806
0.694494
由输出结果可得:
(1)先验公因子方差估计按缺少规定取为1.
(2)相关阵有两个大的特征值2.601939,1.973989.
它们一起解释了总信息的76.27%,而其它4个特征值都很小,由此仅提取两个公因子.
(3)由因子模型可见,公因子1(FACTOR1)在六个变量上的载荷都在0.65的附近,此因子反映了考生的平均综合能力.第二个公因子在x1,x2,3,y1,y2,y3上有负载荷,它反映了语文能力和数学能力是两种不同的能力,以及两者之间的差异.
(4)由每个因子对方差的解释一项可见,第一因子解释的方差是2.601929,它占信息量的43.37%,第二个是1.973989,它解释总信息量的32.9%.说明第一个因子最重要,第二个次之.
(5)最后一项输出了两个公因子对各个变量的影响,即h1=0.822664,…,h6=0.822664.
第二个PROCFACTOR语句中没有规定提取因子的方法,但规定了先验公因子方差估计,使用它同其余任一变量相关的最大值(PRIORS=MAX),所以此时执行主因子分析,同时要求提取两个因子(n=2),还要求打印没有旋转的因子模型图(PREPLPOT).POTATE=V要求产生方差最大旋转,PLOT要打印旋转后的因子模型图.此程序的丰富输出结果见下列诸表:
principalfactoranalysiswithvarmaxrotation
InitialFactorMcthod:
PrincipalFactors
PriorCommunalityEstimated:
MAX
0.7222
0.720000
EigenvaluesoftheReducedCorrelationMatrix:
Total=4.14Average=0.69
2.293373
1.670403
0.105406
-0.008058
-0.028779
0.622971
1.562748
0.002249
0.113464
0.020722
0.5540
0.4035
0.0260
0.0255
-0.0019
-0.0070
Cumulativ
0.9574
0.9834
1.0089
1.0070
2factorswillberetainedbytheNFACTORcriterion
0.50740
0.60099
0.65111
0.51416
0.59482
0.45788
-0.45788
-0.51416
0.60740
-0.60099
2.2933731.670403
FinalCmmunalityEstimated:
Total=3.963776
0.730118
0.688310
0.563460
0.56340
上表给出了:
(1)特征值表,前两个特征值较大,它们一起共占了公共方差的95.74%,因此取两个因子(n=2)是很合理.
(2)给出了因子模型以及每个因子对方差的贡献,及公共因子对于每个变量的贡献,及公共因子对于每个变量的贡献.两个因子的含义也和主分量因子分析类似.打印出散点图略去,读者可自行打印,从结果中可见六个变量可以为两种类型,x1,x2,x3和y1,y2,y3各为一类,两个因子轴都没有穿过此两类,表明两个因子都只是综合地反映两种能力,分解得不好.
principalfactoranalytsiswithvarmaxrotation
RotationMethod:
Varimax
OrthogonalTransformationMatrix
0.70711
-0.70711
RotatedFactorPattern
0.00454
0.85446
0.09684
0.82397
0.09683
0.74437
0.0054
FACTOR1FACTPR2
1.9818881.981888
Total=3.963776
上表给出了方差最大正交旋转矩阵和旋转后的因子模型.由旋转后的因子模型可见变量x1,x2,x3在第一个因子上的载荷很小,而在第二因子上的载荷较大.y1,y2,y3则正好相反,这表明通过旋转以后得到的两个公因子把语文能力和数学能力很好地区分开了,第一个因子反映的是数学能力,第二个因子反映的是语文能力.输出的第二图略去,从图中可见区分结果:
x1,x2,x3在因子轴2上,y1,y2,y3在轴1上.由此例也表明了更好地解释因子使用一定的旋转方法是必要的.
习题十三
1为了分析美国犯罪情况,统计7种罪行的犯罪率,7种犯罪为MURDER(谋杀),RAPE(强奸),POBBERY(抢劫),ASSAULT(斗殴),BURGLARY(夜盗罪),LARCENY(偷窃),AUTO(汽车犯罪),以50个州里平均每100000人犯罪人数为7个变量的50次观察数据见SAS程序.要把这7个变量画成散点图作为分析是不可能的,用主成分分析把7个变量综合成2~3个主成份,则有助于分析这组数据.为此,我们用SAS过程.
datacrime;
title,CrimeRaesper100000populationbySytate,;
inputstate$1-15murderraperobberyassaultburglarylarcenyauto;
Alabama
14.2
25.2
96.8
278.3
1135.5
1881.9
280.7
Alaska
10.8
5106
284.0
1331.7
3369.8
753.3
Arizona
9.5
34.2
138.2
312.3
2346.1
4467.4
439.5
Arkansas
8.8
27.6
83.2
203.4
972.6
1862.1
183.4
California
11.5
49.4
287.0
358.0
2139.4
3499.8
663.5
Colorada
6.3
42.0
170.0
292.9
1935.2
3903.2
477.1
Connectieat
4.2
16.8
129.5
131.8
1346.0
2620.7
593.2
Delaware
6.0
24.9
157.0
194.2
1682.6
3678.4
467.0
Florida
10.2
39.6
187.9
449.1
1859.9
3840.5
351.4
Georgia
11.7
31.1
140.5
256.5
1351.1
2170.2
297.9
Hawaii
7.2
25.5
128.0
64.1
1911.5
3920.4
489.4
Idaho
5.5
19.4
172.5
1050.8
2599.6
237.6
Illinois
9.9
21.8
211.3
209.0
1085.0
2828.5
528.6
Indiana
7.4
26.5
123.2
153.5
782.2
1662.1
245.5
Iowa
2.3
10.6
41.2
89.8
812.5
2685.1
219.9
Kansas
6.6
22.0
100.7
180.5
1270.4
2739.3
244.3
Kentucky
10.1
19.1
81.1
123.3
872.2
1552.1
245.4
Louisiana
15.5
30.9
142.9
33535
1165.5
2469.9
337.7
Maine
2.4
13.5
38.7
1253.2
2350.7
246.9
Maryland
8.0
34.8
292.1
358.9
1400.0
3177.7
428.5
Massachusetts
3.1
20.8
169.1
231.6
1532.2
2311.3
1140.1
Michigan
9.3
38.9
261.9
274.6
1522.7
3159.0
545.5
Minnsota
2.7
19.5
85.9
85.8
1134.7
2559.3
343.1
Mississippi
14.3
19.6
65.7
189.1
915.6
1239.9
144.4
Missouri
9.6
28.3
189.0
233.5
1318.3
2424.2
378.4
Montana
5.4
16.7
39.2
156.8
804.9
2316.1
309.2
Nebraska
3.9
18.1
64.7
112.7
760.0
2773.2
249.1
Nevada
5.8
49.1
323.1
355.0
2453.1
4212.6
559.2
NewHampshire
10.7
23.2
76.0
1041.7
2343.9
293.4
NewMexico
9.8
39.1
109.6
343.4
1418.7
3008.6
259.5
NewYork
29.4
472.6
319.1
1728.0
2782.0
745.8
NorthCarolina
17.0
61.3
318.3
1154.1
2037.8
192.1
NorthDakota
0.9
9.0
13.3
43.8
446.1
1843.0
144.7
Ohio
7.8
27.3
190.5
181.1
1216.0
2696.8
400.4
Oklahoma
8.6
29.2
93.0
205.0
1288.2
2228.1
326.8
Oregon
8.9
39.0
124.1
286.9
1636.4
3506.1
388.9
Pennsylvania
5.6
19.0
130.3
877.5
1624.1
333.2
RhodeIsland
3.6
10.5
86.5
201.0
1489.5
2844.1
791.4
SouthCarolina
11.9
33.0
105.9
485.3
1613.6
2342.4
245.1
SouthDakota
17.9
155.7
570.5
1704.4
147.5
Tennessee
29.7
145.8
203.9
1259.7
1776.5
314.0
Texas
33.8
152.4
208.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成份 分析