因子分析在STATA中实现和案例Word文档格式.docx
- 文档编号:20654281
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:15
- 大小:328.53KB
因子分析在STATA中实现和案例Word文档格式.docx
《因子分析在STATA中实现和案例Word文档格式.docx》由会员分享,可在线阅读,更多相关《因子分析在STATA中实现和案例Word文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
estatsummarize
因子旋转与作图
因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。
screeplot/*碎石图*/
scoreplot/*得分图*/
loadingplot/*因子载荷图*/
rotate/*旋转*/
例:
利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:
省份
人均GDP(元)
新增固定资产(亿元)
城镇居民人均年可支配收入(元)
农村居民家庭人均纯收入(元)
高等学校数(所)
卫生机构数(个)
area
x1
x2
x3
x4
x5
x6
北京
63029
85
6497
天津
55473
55
2784
河北
23239
105
15632
山西
20398
69
9431
内蒙古
32214
39
7162
辽宁
31259
104
14627
吉林
23514
9659
黑龙江
21727
78
7928
上海
73124
66
2822
江苏
39622
146
13357
浙江
42214
98
15290
安徽
14485
7837
福建
30123
81
4478
江西
14781
82
8229
山东
33083
125
14973
河南
19593
6414
94
11683
湖北
19860
118
10305
湖南
17521
115
14455
广东
37589
15819
广西
14966
1419
68
10427
海南
17175
16
2220
重庆
18025
47
6265
四川
15378
90
20738
贵州
8824
903
45
5848
云南
12587
1551
59
9249
西藏
13861
6
1326
陕西
18246
88
8812
甘肃
12110
10534
青海
17389
9
1582
宁夏
17892
15
1629
新疆
19893
37
6739
程序:
clear
*定义变量的标签
labelvararea省份
labelvarx1"
人均GDP(元)"
labelvarx2"
新增固定资产(亿元)"
labelvarx3"
城镇居民人均年可支配收入(元)"
labelvarx4"
农村居民家庭人均纯收入(元)"
labelvarx5"
高等学校数(所)"
labelvarx6"
卫生机构数(个)"
factorx1-x6
screeplot/*碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/
*检验
estatkmo/*KMO检验,越高越好*/
estatsmc/*SMC检验,值越高越好*/
loadingplot,yline(0)xline(0)/*载荷图*/
*预测
predictscorefitresidualq/*预测变量得分、拟合值和残差以及残差的平方和*/
predictf1f2
labelvarf1收入因子
labelvarf2"
投资、社会因子"
listareaf1f2
summarizef1f2
correlatef1f2
scoreplot,xtitle("
收入因子"
)ytitle("
)
--------------------------------------------------------------------------
LRtest:
independentvs.saturated:
chi2(15)=Prob>
chi2=
Factorloadings(patternmatrix)anduniquevariances
-----------------------------------------------------------
Variable|Factor1Factor2Factor3|Uniqueness
-------------+------------------------------+--------------
x1_s||
x2_s||
x3_s||
x4_s||
x5_s||
x6_s||
从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部六个变量组合的方差还多。
不重要的第2到6个主成分在随后的分析中可以放心地省略去。
运行factor命令后,我们可以接着运行screeplot命令画出碎石图。
碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。
碎石图
检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。
旋转会进一步简化因子结构。
在提取因子之后,键入rotate命令进行旋转。
Factoranalysis/correlationNumberofobs=31
Method:
principalfactorsRetainedfactors=3
Rotation:
orthogonalvarimax(Kaiseroff)Numberofparams=15
Factor|VarianceDifferenceProportionCumulative
-------------+------------------------------------------------------------
Factor1|
Factor2|
Factor3|.
Rotatedfactorloadings(patternmatrix)anduniquevariances
x1||
x2||
x3||
x4||
x5||
x6||
Factorrotationmatrix
-----------------------------------------
|Factor1Factor2Factor3
-------------+---------------------------
Factor3|
结合实际情况,我们通过上面的分析整理出前两个主因子的正交因子表。
表:
正交因子表
因子
指标
Factor
1
2
根据上表将六个指标按高载荷分成两类,并结合专业知识对各因子命名,如下表:
高载荷分类
高载荷指标
因子命名
人均GDP
城镇居民人均年可支配收入
农村居民家庭人均纯收入
收入因子
高等学校数
卫生机构数
新增固定资产
投资、社会因子
接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化。
从图中我们就可以直观的看出在主因子1中x1、x3、x4明显取得较大值,而对于主因子2则是x2、x5、x6取得较大的值。
载荷图
因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。
基于最近的rotate或factor结果,predict会自动进行这些计算。
通过命令predictf1f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。
.listareaf1f2
+--------------------------------+
|areaf1f2|
|--------------------------------|
1.|北京|
2.|天津|
3.|河北|
4.|山西|
5.|内蒙古.0597282|
6.|辽宁.0589154|
7.|吉林|
8.|黑龙江.0518705|
9.|上海|
10.|江苏.7713872|
11.|浙江.5580102|
12.|安徽.5026094|
13.|福建.5376554|
14.|江西.2467043|
15.|山东.1589503|
16.|河南|
17.|湖北.7986803|
18.|湖南.8609527|
19.|广东.6425342|
20.|广西|
21.|海南|
22.|重庆|
23.|四川.9108785|
24.|贵州|
25.|云南|
26.|西藏|
27.|陕西.1913275|
28.|甘肃|
29.|青海|
30.|宁夏|
31.|新疆|
.summarizef1f2
Variable|ObsMeanStd.Dev.MinMax
-------------+--------------------------------------------------------
f1|31.988557
f2|31.9464783
在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。
通过运行命令correlatef1f2可得。
从运行出来的结果看到,两个因子分相关关系是很小的。
.correlatef1f2
(obs=31)
|f1f2
-------------+------------------
f1|
f2|
另一个后因子分析制图命令,scoreplot可绘出这些观测案例的因子分的散点图。
在本例的得分图中,我们可以看到,上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高,因为主因子1是收入因子,这些城市的收入在全国是排在前列的。
而我们可以看到北京、上海的在主因子2(即投资、社会因子)的得分是较低,这是因为这两个城市的经济总量相对较小。
在江苏、山东、广东这些经济总量名列前茅的省份,它们的主因子2的得分也是相应位于其他城市前面。
得分图
练习:
将上一章的主成分分析的例子的数据进行因子分析。
GDP(亿元)
居民消费水平(元)
固定资产投资(亿元)
职工平均工资(元)
货物周转量(亿吨公里)
居民消费价格指数(上年100)
商品零售价格指数(上年100)
工业总产值(亿元)
x7
x8
20346
56328
10413
14000
41748
12503
6570
24756
23031
6187
25828
10024
8108
26114
9625
27729
24769
7591
23486
8310
7039
3656
23046
27343
56565
25121
11013
31667
67799
13893
9323
34146
40832
6377
6747
26363
11162
10361
25702
15213
5753
21000
106
9573
26404
62959
5877
24816
107
26028
7406
5647
22739
13455
7145
5534
24870
11553
14390
33110
65425
6103
25660
2079
6072
6550
21864
9835
26985
25038
14762
4426
24602
4553
24030
3504
47280
6290
25942
2027
4869
24017
5830
30983
7193
30719
5542
2260
24687
1273
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析 STATA 实现 案例