类别数据分析第五讲.docx
- 文档编号:6259241
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:18
- 大小:109.02KB
类别数据分析第五讲.docx
《类别数据分析第五讲.docx》由会员分享,可在线阅读,更多相关《类别数据分析第五讲.docx(18页珍藏版)》请在冰豆网上搜索。
类别数据分析第五讲
CATEGORICALDATAANALYSIS
类别数据分析
Lecture5
香港科技大学社会科学部
吴晓刚
2012年6月
应用社会科学方法培训暨研讨班
上海大学
无序多重分类变量(UnorderedPolytomousVariables)的相关模型
I.多类别(Multinomial)Logit模型(MNL)
-处理K种分类应变量的一种模型。
-是一种把二分logit一般化的统计模型。
-在面对K种分类应变量时,此一模型其实首先是运算K-1个彼此独立的logits函数。
-相对的回归系数,再由K-1个函数计算出来。
-亦即MNL模型就是由K-1个二分的logits计算出来的。
1.模型推导的说明:
※当B1≠0时,就成为条件Logit模型。
2.例子:
中国教育与职业成就的关系(1996数据)
-我们想知道教育对中国人民流动到不同职业或阶级的概率的影响。
不同的阶级类别或是职业类别未必有明确的高低之分,因此我们用名义多重应变量来处理。
.use"C:
\DocumentsandSettings\sowu\MyDocuments\data\data_archives\CHINA\CHINA07.DTA",clear
.dropifsample>2
(383observationsdeleted)
.recodeeduc_hiy-4/-1=.
(educ_hiy:
4changesmade)
.tabrcat_c
current|
activity:
|
occupationa|
l|Freq.PercentCum.
------------+-----------------------------------
Blank|10.020.02
Notappl|1,23720.3120.33
Agricult|2,24136.8057.13
Unskille|3565.8562.97
Skilled|69811.4674.43
Sales,se|5098.3682.79
Ord.offi|2063.3886.17
Middlem|1201.9788.14
Highman|631.0389.18
Lowprof|3105.0994.27
Middlep|1001.6495.91
Highpro|270.4496.35
Entrepre|1542.5398.88
Head,pvt|270.4499.33
Soldier,|150.2599.57
Other|260.43100.00
------------+-----------------------------------
Total|6,090100.00
.genoccup=rcat_c
.recodeoccup-4/0=.1=12/4=25/7=38/10=4*=.
(occup:
3493changesmade)
.taboccup
occup|Freq.PercentCum.
------------+-----------------------------------
1|2,24148.4048.40
2|1,56333.7682.16
3|3898.4090.56
4|4379.44100.00
------------+-----------------------------------
Total|4,630100.00
.labeldefineoccup1"farmer"2"worker"3"cadres"4"professional"
.labelvalueoccupoccup
.taboccup
occup|Freq.PercentCum.
-------------+-----------------------------------
farmer|2,24148.4048.40
worker|1,56333.7682.16
cadres|3898.4090.56
professional|4379.44100.00
-------------+-----------------------------------
Total|4,630100.00
【STATA学习提示】此时我们把样本区分为四种职业或阶级:
农民(farmer)、工人(worker)、干部(cadres)与专家(professional)。
以下父亲的职业亦同。
.recodesex1=12=0
(sex:
3002changesmade)
.recodeparty1=1*=0
(party:
5381changesmade)
.genage=96-birth
.genfoccup=fcat14
.recodefoccup-4/0=.1=12/4=25/7=38/10=4*=.
(foccup:
2444changesmade)
.labelvaluefoccupoccup
.tabfoccup
foccup|Freq.PercentCum.
-------------+-----------------------------------
farmer|3,32763.5363.53
worker|1,14421.8485.37
cadres|3636.9392.30
professional|4037.70100.00
-------------+-----------------------------------
Total|5,237100.00
【STATA学习提示】可以用“mlogit”命令来运行MNL模型。
.xi:
mlogitoccupi.foccupsexageeduc_hiyparty
i.foccup_Ifoccup_1-4(naturallycoded;_Ifoccup_1omitted)
MultinomiallogisticregressionNumberofobs=4095
LRchi2(21)=2825.28
Prob>chi2=0.0000
Loglikelihood=-3297.8183PseudoR2=0.2999
-----------------------------------------------------------------------------
occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]
-------------+---------------------------------------------------------------
worker|
_Ifoccup_2|2.338695.121170319.300.0002.1012062.576185
_Ifoccup_3|2.431827.25705979.460.0001.9282.935655
_Ifoccup_4|1.546691.17727188.720.0001.1992441.894137
sex|.2501335.08723582.870.004.0791545.4211125
age|-.0223236.0042812-5.210.000-.0307146-.0139325
educ_hiy|.1541937.01354811.380.000.1276401.1807473
party|.4856943.17729792.740.006.1381967.8331918
_cons|-1.330775.2099156-6.340.000-1.742201-.9193475
-------------+---------------------------------------------------------------
cadres|
_Ifoccup_2|2.370788.190913712.420.0001.9966042.744972
_Ifoccup_3|3.145735.309035610.180.0002.5400363.751434
_Ifoccup_4|1.989938.25896687.680.0001.4823722.497503
sex|.2237663.16044841.390.163-.0907067.5382394
age|.0522693.00815866.410.000.0362788.0682598
educ_hiy|.5114292.030241716.910.000.4521566.5707018
party|2.49368.198868312.540.0002.1039052.883454
_cons|-9.641521.5213495-18.490.000-10.66335-8.619695
-------------+---------------------------------------------------------------
professional|
_Ifoccup_2|1.734825.18687539.280.0001.3685562.101094
_Ifoccup_3|2.503719.29979188.350.0001.9161383.0913
_Ifoccup_4|1.852744.23056478.040.0001.4008452.304642
sex|-.5751241.1447004-3.970.000-.8587316-.2915165
age|.0452549.00799275.660.000.0295895.0609203
educ_hiy|.6947177.030896322.490.000.634162.7552734
party|1.406609.2156476.520.000.98394821.829269
_cons|-10.10409.5013371-20.150.000-11.08669-9.121487
-----------------------------------------------------------------------------
(Outcomeoccup==farmeristhecomparisongroup)
3.解释统计结果:
a)对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高多少?
Exp(0.250)=1.28
“在控制其它因素之下,对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高了28%。
”
对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高多少?
Exp(2.49)=12.06
“在控制其它因素之下,对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高了11倍。
”
每单位教育使之成为专家相对于成为农民的发生比,影响有多大?
Exp(0.695)=2.00(试解释之!
)
b)妳该如何计算出党员这个因素,使之成为干部相对于成为专家的发生比,影响有多大?
Exp(2.49-1.41)=Exp(1.08)=2.94.
“在控制其它因素之下,党员这个因素,使中国人民成为干部相对于成为专家的发生比,提高了将近两倍。
”
对中国人来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高多少?
Exp(0.695-0.511)=1.20
“在控制其它因素之下,对中国人民来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高20%。
”
c)概率的推测:
对一个四十岁、父亲是专家,而且受过大专以上教育(16年以上教育)的男性非党员来说,成为专家的概率有多大?
【STATA学习提示】自行依据公式计算或者用STATA计算皆可,两者些微的差距来自计算过程的误差:
exp(-10.1+1.85-0.58+0.045*40+0.695*16)/{1+exp(-10.1+1.85-0.58+0.045*40+0.695*16)+exp(-1.33+1.55+0.25-0.022*40+0.15*16)+exp(-9.64+1.99+0.22+0.052*40+0.51*16)}=0.706
.replaceeduc_hiy=16
(5976realchangesmade)
.replaceage=40
(5875realchangesmade)
.predictp1-p4ifsex==1&party==0&foccup==4
(optionpassumed;predictedprobabilities)
(5937missingvaluesgenerated)
.listp1-p4
+-------------------------------------------+
|p1p2p3p4|
|-------------------------------------------|
2.|.0116009.0892361.1997174.6994457|
4.绘图表现MNL的结果
对社会研究的读者来说,特别是像MNL这种复杂的模型,绘图简单表达作者的发现更容易被接受。
以上述例子重做一个简单的例图。
.xi:
mlogitoccupeduc_hiyparty
MultinomiallogisticregressionNumberofobs=4629
LRchi2(6)=2263.92
Prob>chi2=0.0000
Loglikelihood=-4184.0994PseudoR2=0.2129
----------------------------------------------------------------------
occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]
-------------+--------------------------------------------------------
worker|
educ_hiy|.2525858.010765923.460.000.231485.2736867
party|.2812906.1538321.830.067-.0202145.5827957
_cons|-2.085241.0858456-24.290.000-2.253495-1.916987
-------------+----------------------------------------------------------------
cadres|
educ_hiy|.512489.024989920.510.000.4635096.5614683
party|2.696897.168085616.040.0002.3674553.026339
_cons|-6.486412.2558443-25.350.000-6.987857-5.984966
-------------+----------------------------------------------------------------
professional|
educ_hiy|.7069708.026482626.700.000.6550659.7588757
party|1.468642.1891517.760.0001.0979131.839371
_cons|-8.119783.2851937-28.470.000-8.678753-7.560814
------------------------------------------------------------------------------
(Outcomeoccup==farmeristhecomparisongroup)
.predictp1-p4ifparty==0
(optionpassumed;predictedprobabilities)
(713missingvaluesgenerated)
.predictq1-q4ifparty==1
(optionpassumed;predictedprobabilities)
(5381missingvaluesgenerated)
.labelvarp3"cadrefornonparty"
.labelvarp4"professionalfornonparty"
.labelvarq4"professionalforparty"
.labelvarq3"cadreforparty"
.graphp3q3p4q4educ_hiy,c(ssss)
.version7
.graphp3q3p4q4educ_hiy,c(ssss)border
此处我们关心的是在党员与非党员之间,教育对成为干部与成为专家的相对影响。
运用STATA的指令,作为比较基础的一类可以轻易地转换成以另一类为准。
虽然在这种情况下,我们会运算出不同的相对回归系数与发生比率,但是概率的预测值不会变动。
【STATA学习提示】可以用“basecategory”这个命令来改变对照的分类。
.xi:
mlogitoccupeduc_hiyparty,basecategory
(2)
MultinomiallogisticregressionNumberofobs=4629
LRchi2(6)=2263.92
Prob>chi2=0.0000
Loglikelihood=-4184.0994PseudoR2=0.2129
-----------------------------------------------------------------------------
occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]
-------------+---------------------------------------------------------------
farmer|
educ_hiy|-.2525858.0107659-23.460.000-.2736867-.231485
party|-.2812906.153832-1.830.067.5827957.0202145
_cons|2.085241.085845624.290.0001.9169872.253495
-------------+---------------------------------------------------------------
cadres|
educ_hiy|.2599032.024042810.810.000.2127802.3070261
party|2.415607.148420416.280.0002.1247082.706505
_cons|-4.401171.2529116-17.400.000-4.896868-3.905473
-------------+---------------------------------------------------------------
professional|
educ_hiy|.454385.025250418.000.000.4048951.5038749
party|1.187351.16789657.070.000.85828031.516423
_cons|-6.034542.2804212-21.520.000-6.584158-5.484927
-----------------------------------------------------------------------------
(Outcomeoccup==workeristhecomparisongroup)
【STATA学习提示】可以用“rrr”这个命令直接得到取幂后的回归系数。
.xi:
mlogitoccupeduc_hiypartysex,rrr
MultinomiallogisticregressionNumberofobs=4629
LRchi2(9)=2311.38
Prob>chi2=0.0000
Loglikelihood=-4160.3687PseudoR2=0.2174
-----------------------------------------------------------------------------
occup|RRRStd.Err.zP>|z|[95%Conf.Interval]
-------------+---------------------------------------------------------------
worker|
educ_hiy|1.284539.01393323.090.0001.257521.31
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 类别 数据 分析 第五