书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 因子分析在STATA中实现和案例.docx

因子分析在STATA中实现和案例.docx

文档编号：5276920
上传时间：2022-12-14
格式：DOCX
页数：14
大小：72.28KB

《因子分析在STATA中实现和案例.docx》由会员分享，可在线阅读，更多相关《因子分析在STATA中实现和案例.docx（14页珍藏版）》请在冰豆网上搜索。

因子分析在STATA中实现和案例.docx

因子分析在STATA中实现和案例

第13章因子分析

因子分析始于1904年CharsSpearman对学生成绩的分析，在经济领域有着极为广泛的用途。

在多个变量的变化过程中，除了一些特定因素之外，还受到一些共同因素的影响。

因此，每个变量可以拆分成两部分，一是共同因素，二是特殊因素。

这些共同因素称为公因子，特殊因素称为特殊因子。

因子分析即是提出多个变量的公共影响因子的一种多元统计方法，它是主成分分析的推广。

因子分析主要解决两类问题：

一是寻求基本结构，简化观察系统。

给定一组变量或观察数据，是否存在一个子集，特别是一个加权子集，来解释整个问题，即将为数众多的变量减少为儿个新的因子，以再现它们之间的内在联系。

二是用于分类，将变量或样本进行分类，根据因子得分值，在因子轴所构成的空间中进行分类处理。

P个变量X的因子模型表达式为：

X=fA+e

f称为公因子，八称为因子载荷。

X的相关系数矩阵分解为：

为=A①A+W

对于未旋转的因子，e=l。

W称为特殊度，即每个变量中不属于共性的部分。

因子估计

Stata可以通过变量进行因子分析，也可以通过矩阵进行。

命令为factor或factormato

webusebg2,clear

describe

factorbg2costl-bg2cost6

factorbg2costl-bg2cost6,factors

（2）

*pf主因犷方法，用复相关系数的平方作为因f•载荷的估计量（默认选项）

factorbg2costl-bg2cost6,factors

（2）pcf

*pcf主成分因子，假定共同度=1

factorbg2costl-bg2cost6,factors

（2）ipf

*ipf迭代主因子，重复估计共同度

factorbg2costl-bg2cost6,factors

（2）ml

*ml极大似然Wf,假定变量（至少3个）服从多元正态分布，对偏相关矩阵的行列式进行最优化求解，等价于Ra。

的典型因子方法

预测

Stata可以通过predict预测变量得分、拟合值和残差等。

webusebg2,clear

factorbg2costl-bg2cost6

predictflf2

*factor1faoto工2［犬I了•得分

predictstdpresiduals*预测标准差和残差

Estat

Eatat给出了儿个非常有用的工具，包括KMO、SMC等指标。

webusebg2,clear

factorbg2costl-bg2cost6

estatanti

estatkmo

estatresiduals

estatsmc

estatsummarize

因子旋转与作图

因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同，请参见”主成分分析”一章。

webusebg2,clear

factorbg2costl-bg2cost6

screeplot/★碎石图★/

scoreplot/★得分图★/

loadingplot/★因戈荷图*/

rotate/★旋转★/

例：

利用2009年的数据对中国社会发展状况进行综合考察，原始数据如下表：

省份

人均GDP

（元）

新增固定资产（亿元）

城镇居民人均年可支配收入

（元）

农村居民家庭人均纯收入

（元）

高等学校数（所）

卫生机构数（个）

area

X1

x2

x3

x4

x5

x6

北京

63029

85

6497

天津

55473

55

2784

河北

23239

105

15632

山西

20398

69

9431

内蒙古

32214

39

7162

辽宁

31259

104

14627

吉林

23514

55

9659

黑龙江

21727

78

7928

上海

73124

66

2822

江苏

39622

146

13357

浙江

42214

98

15290

安徽

14485

104

7837

福建

30123

81

4478

江西

14781

82

8229

山

东

33083

125

14973

河

南

19593

6414

94

11683

湖

北

19860

118

10305

湖

南

17521

115

14455

广

东

37589

125

15819

广

西

14966

1419

68

10427

海

南

17175

16

2220

重

庆

18025

47

6265

四

川

15378

90

20738

贵

州

8824

903

45

5848

云

南

12587

1551

59

9249

西

藏

13861

6

1326

陕

西

18246

88

8812

甘

肃

12110

39

10534

青

海

17389

9

1582

宁

夏

17892

15

1629

新

19893

37

6739

程序:

clear

describe

screeplot

factorxl-x6

/*碎石图（特征值等于1处的水平线标示保留主成分的分界点）*/

★检验

estatkmo/*KM0检验.越高越好*=/

estatsmc/*SMC检验,值越高越好*/

rotate/*旋转*/

loadingplot,yline（O）xline（O）/*载荷图*/

*预测

predictscorefitresidualq/*预测变量得分、拟合值和残差以及残差的平方和*/predictflf2

labelvarfl收入因子

labelvarf2”投资、社会因子”

listareaflf2

summarizeflf2

correlateflf2

scoreplot,xtitle（H收入因fn）ytitle（n投资、社会因子”）

LRtest:

independentvs・saturated：

chi2（15）=Prob>chi2=

Factorloadings（patternmatrix）anduniquevariances

Variable

Factorl

Factor2Factor3

Uniqueness

xl_s

1

x2_s

1

x3_s

1

x4_s

1

x5_s

1

x6s

1

从上面的分析可以看出，只有两个成分大于1大于的特征值，同时两个成分解释了全部六个变量组合的方差还多。

不重要的第2到6个主成分在随后的分析中可以放心地省略去。

运行factor命令后，我们可以接着运行screeplot命令画出碎石图。

碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点，同时再次强调了本例中的成分3到成分6并不重要。

Screeplotofeigenvaluesafterfactor

碎石图

检验的方法还是跟上一章的主成分分析一样，山于我们都是选用实际的数据来进行分析，所以在一般情况下，检验都是通得过的，可以忽略，觉得有需要的再进行检验。

旋转会进一步简化因子结构。

在提取因子之后，键入rotate命令进行旋转。

Factoranalysis/correlationNumberofobs=31

Method：

principalfactorsRetainedfactors=3

Rotation：

orthogonalvarimax（Kaiseroff）Numberofparams=15

Factor

VarianceDifference

ProportionCumulative

Factorl

Factor2

Factor3

•

LRtest:

independentvs・saturated：

chi2（15）=Prob>chi2=

Rotatedfactorloadings（patternmatrix）anduniquevariances

VariableFactorlFactor2Factor3Uniqueness

xlx2

Factorrotationmatrix

FactorlFactor2Factor3

Factorl

Factor2

Factor3

结合实际情况，我们通过上面的分析整理出前两个主因子的正交因子表。

表：

正交因子表

^因子指旷

Factor

1

2

x2

x3

x4

x5

x6

根据上表将六个指标按高载荷分成两类，并结合专业知识对各因子命名，如下表：

表：

高载荷分类

髙载荷指标

因子命名

1

人均GDP

城镇居民人均年可支配收入农村居民家庭人均纯收入

收入因子

2

高等学校数卫生机构数新增固定资产

投资、社会因子

接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化。

从图中我们就可以直观的看出在主因子1中xl、x3、x4明显取得较大值，而对于主因子2则是x2、x5、x6取得较大的值。

载荷图

Factorloadings

I

.5

Factor1

Rotation:

orthogonalvarimaxMethod:

principalfactors

因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。

基于最近的rotate或factor结果，predict会自动进行这些计算。

通过命令predictflf2,我们得到了各个观察变量的主因子1、主因子2的得分悄况。

・listareaflf2

11.浙江・5580102

+

12.

1安

徽・5026091|

area

fl

f2|

13.

fni

建

・5376554

1

14.

1江

西

・2167013|

1

1.

北

京

1

15.

1山

东

・1589503

2.

天

津

1

3.

河

北

1

16.

1河

南

1

4・

111

西

1

17.

1湖

北

.7986803|

5.

内蒙古

・0597282

18.

1湖

南

.8609527|

1

19.

1广

东

・6125312

1

&

7

辽

吉

宁

林

・0589154

1

20.

1广

1

西

1

8.

黑龙江

・0518705

21.

1海

南

1

9.

上

海

1

22.

1重

庆

1

10.

江

苏

・7713872

23.

1四

川

・9108785|

一

—

24.

1贵

州

1

25・

云

南1

29.

1青

海1

—

30.

1宁

夏1

26・

西

藏丨

1——

1

27.

陕

西・1913275

31.

1新

据1

28・

tr

肃1

+

summarizeflf2

VariableObsMeanStd・Dev・MinMax

fl31・988557

f231・9461783

在这些因子分之间是存在着相关，在默认选项中，promax旋转允许因子分之间存在相关。

通过运行命令correlateflf2可得。

从运行出来的结果看到,两个因子分相关关系是很小的。

・correlateflf2

（obs=31）

flf2

fl

f2

另一个后因子分析制图命令，scoreplot可绘出这些观测案例的因子分的散点图。

在本例的得分图中，我们可以看到，上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高，因为主因子1是收入因子，这些城市的收入在全国是排在前列的。

而我们可以看到北京、上海的在主因子2（即投资、社会因子）的得分是较低，这是因为这两个城市的经济总量相对较小。

在江苏、山东、广东这些经济总量名列前茅的省份，它们的主因子2的得分也是相应位于其他城市前面。

得分图

Scorevariables（factor）

北

•安繳

•陕西2更

•江苏

•山东

•广东

•辽宁

•浙江

•里龙汀-

•福建

•内蒙古

•天津

•北京

•上海

-1

收殳因子

Rotation:

orthogonalvanmaxMethod:

principalfactors

练习：

将上一章的主成分分析的例子的数据进行因子分析。

省份

GDP

（亿元）

居民

消费水平（元）

固定资产投资（亿元）

职工平

均工资

（元）

货物周

转址

（亿吨公

里）

area

X1

x2

x3

x4

x5

北京

20316

56328

天津

11000

41748

河北

6570

24756

山西

6187

25828

内蒙古

8108

26114

辽宁

9625

27729

吉林

7591

23186

黑龙江

8310

7039

3656

23046

上海

27313

56565

江苏

11013

31667

浙江

13893

9323

34146

安徽

6377

6747

26363

居民消

商品零

费价格

售价格

工业总

指数

产值

（上年

（亿元）

100）

x6

x7

x8

10413

12503

23031

10024

24769

105

25121

67799

10832

11162

福

建

10361

25702

15213

江

西

5753

21000

106

山

东

9573

26404

62959

河

南

5877

24816

107

26028

湖

北

7406

5647

22739

13455

湖

南

7145

5534

24870

106

11553

广

东

14390

33110

106

65425

广

西

6103

25660

2079

6072

海

南

6550

21864

重

庆

9835

26985

105

四

JII

6072

25038

14762

贵

州

4426

24602

云

南

4553

21030

西

3501

47280

陕

西

6290

25912

2027

甘

肅

4869

24017

海

5830

30983

宁

复

7193

30719

新

5542

2260

24687

1273

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 因子分析 STATA 实现案例

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：因子分析在STATA中实现和案例.docx
链接地址：https://www.bdocx.com/doc/5276920.html

因子分析在STATA中实现和案例.docx

热门标签