北师大应用多元统计分析作业主成分分析_精品文档.pdf
- 文档编号:3216372
- 上传时间:2022-11-20
- 格式:PDF
- 页数:11
- 大小:425.23KB
北师大应用多元统计分析作业主成分分析_精品文档.pdf
《北师大应用多元统计分析作业主成分分析_精品文档.pdf》由会员分享,可在线阅读,更多相关《北师大应用多元统计分析作业主成分分析_精品文档.pdf(11页珍藏版)》请在冰豆网上搜索。
1应用多元统计分析作业
(一)主成分分析应用多元统计分析作业
(一)主成分分析81:
用主成分分析方法探讨城市工业主体结构。
:
用主成分分析方法探讨城市工业主体结构。
解:
执行解:
执行SAS程序代码:
程序代码:
datadxiti81;inputnumberx1-x8;cards;19034252455101091192728216.11974350.17224903197320351031334.27.15920770.00336735211393767178036.18.27263960.00344945436241815572250498.125.93482260.98551391902035052158981060993.212.61395720.6286122151621910351638262.58.71458180.066723726572810312329184.422.2209210.152811062230785493523804370.441654860.263917111239075210821796221.521.5638060.2761012063930612615586330.429.518400.4371121505704620010870184.21289130.27412525161551038316875146.427.5787960.151131434113203193961469194.617.863541.574;procprincompdata=dxiti81out=oxiti81;varx1-x8;run;procsortdata=oxiti81;byprin1;procprint;idnumber;varprin1;run;procsortdata=oxiti81;byprin2;procprint;idnumber;varprin2;run;procsortdata=oxiti81;byprin3;procprint;idnumber;varprin3;2run;procplot;plotprin2*prin1=number;run;procclusterdata=oxiti81method=avepseudocccouttree=tr81;varx1-x8;idnumber;proctreedata=tr81horizontalgraphics;run;结果分析:
结果分析:
我们使用原始数据的相关系数矩阵计算特征根矩阵。
通过观察这8个变量之间的两两相关系数矩阵两两相关系数矩阵(表1)表1:
CorrelationMatrix表1:
CorrelationMatrixx1x2x3x4x5x6x7x8x1x2x3x4x5x6x7x8x1x11.00000.91960.96200.1089-.2886-.16630.00670.2140x2x20.91961.00000.9468-.0550-.1973-.1709-.01490.1855x3x30.96200.94681.00000.2329-.10360.0042-.07810.2467x4x40.1089-.05500.23291.00000.55990.7809-.44970.3009x5x5-.2886-.1973-.10360.55991.00000.8266-.6088-.0295x6x6-.1663-.17090.00420.78090.82661.0000-.49220.1742x7x70.0067-.0149-.0781-.4497-.6088-.49221.0000-.2999x8x80.21400.18550.24670.3009-.02950.1742-.29991.0000我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。
而与,与,与,与其他所有指标之间的相关系数均较小,由此可以得到初步的分析结论:
、和应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。
根据分析家系统画出的碎石图和特征根的累积方差贡献率(表2)3表表2主成分主成分ProportionCumulative10.38810.388120.36220.750330.11630.866640.08030.946850.03800.984860.01080.995770.00400.999780.00031.0000可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。
根据特征向量(表3),可以写出上述确定的三个主成分的表达式确定的三个主成分的表达式如下(均为标准化后的变量):
下面利用特征向量的值对选取的主成分进行解释:
下面利用特征向量的值对选取的主成分进行解释:
对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而的特征向量系数均在0.3左右,且均为负值,结合和指标所代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”;对第三个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。
利用主成分得分对行业进行排序:
利用主成分得分对行业进行排序:
表4按第一主成分排序按第一主成分排序按第二主成分排序按第二主成分排序按第三主成分排序按第三主成分排序numberPrin1numberPrin2numberPrin382.1949833.22553132.8063102.0318622.5916440.99768121.2014161.77361110.1225571.1025110.7556160.0311490.8411770.3179320.22831110.71333120.03034100.23105130.26296130.4643170.2818360.3299710.75863120.28702表表3Prin1Prin2Prin3x10.4766500.2959910.104190x20.4728080.2778940.162983x30.4238450.3779510.156255x4.2128930.451408.008544x5.3884600.3309450.321133x6.3524270.4027370.145144x70.214835.3774150.140459x80.0550340.272736.891162440.45986100.8251690.3528720.4982190.8956630.4094131.0564441.1836450.4676411.4752482.2441410.5380454.5284852.2624481.09921对于第一个主成分来说:
第8,10行业的得分较低,而第5行业的得分很高;对比原始指标可以看出,食品、缝纫工业的发展规模较小,而机械工业的发展规模较大;对于第二个主成分来说:
第3行业的得分较低,而第8,5行业的得分很高;对比原始数据可以看出,煤炭工业的能源消耗量较大,环保指数较低,而食品、机械的能源消耗量较小,环保指数较高;对于第三个主成分来说:
第13行业的得分较低,而第8行业的得分很高;对比原始数据可以看出,文教用品工业的能源利用效率较低,而食品工业的能源利用效率较高。
故对于故对于13个工业产业发展规模的排序为:
个工业产业发展规模的排序为:
5、1、3、2、4、6、13、11、9、7、12、10、8,相应的原始行业为:
机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
相应的原始行业为:
机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
上图为主成分2对主成分3的分布图,可以看到对于第4、11、6、2、3行业来说,能源消耗量越大,能源利用效益越低,而对于其他行业则两者之间没有显著关系。
5同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析:
原始指标可以分为两类:
与,分别反映生产规模和生产效益,而即能源消耗量和能源利用效益则与上述两组指标关系不大。
聚类分析信息表聚类分析信息表NCLClustersJoinedFREQSPRSQRSQERSQCCCPSFPST2Diste129820.00001.00.2628.0.020411111020.00011.00.2346.0.024710CL11730.00021.00.10884.40.0463913CL1040.0004.999.7152.90.0607812CL1230.0022.997.24763.30.14077CL9CL870.0105.987.73.518.30.20586CL7680.0146.972.48.66.50.333652320.0123.960.47.7.0.383644120.0166.943.49.7.0.44673CL6CL4100.1272.816.22.222.80.74022CL35110.1002.716.7060.1327.75.20.87431CL2CL5130.7157.000.0000.00.27.71.6501综合上表的综合上表的R2、半偏、半偏R2、伪、伪F、伪、伪t2统计量(统计量(RSQ、SPRSQ、PSF、PST2),可以看到,将原始的),可以看到,将原始的13个工业行业分为个工业行业分为2类或类或4类是比较合理的:
类是比较合理的:
分为两类的结果:
分为两类的结果:
电力、煤炭电力、煤炭,冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品;分为四类的结果:
分为四类的结果:
建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品,冶金、化学冶金、化学,机械机械,电力、煤炭电力、煤炭。
NameofObservationorCluster32514689127101113AverageDistanceBetweenClusters0.00.20.40.60.81.01.21.41.61.8682:
分析上海各乡的经济发展数据。
:
分析上海各乡的经济发展数据。
解:
执行解:
执行SAS程序代码:
程序代码:
datadxiti82;inputnumberx1-x2y1-y7;cards;18434000920103811661536169227432741294252151216128015491924271737434160
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北师大 应用 多元 统计分析 业主 成分 分析 精品 文档