2计数模型的理论与应用.docx
- 文档编号:25910162
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:22
- 大小:325.31KB
2计数模型的理论与应用.docx
《2计数模型的理论与应用.docx》由会员分享,可在线阅读,更多相关《2计数模型的理论与应用.docx(22页珍藏版)》请在冰豆网上搜索。
2计数模型的理论与应用
专题2:
计数模型的理论与应用
张晓峒
(2011-11-19)
南开大学数量经济研究所所长、博士生导师
中国数量经济学会常务理事
天津市数量经济学会理事长
nkeviews@
以观测值服从poisson分布为假定条件,介绍计数模型。
首先介绍poisson分布。
若随机变量Yi的概率函数是
P{Yi=yi}=P{yi}=
yi=0,1,...
其中0,则称Yi服从poisson分布。
观察由=3的poisson分布随机数生成的200个值的序列图与频数分布图。
EViews操作:
在generatereries窗口键入:
y_possion=@rpoisson(3)。
观察200个poisson分布值的序列图和频数分布图。
seriesy1=@rpoisson(3)
seriesy2=@rpoisson(5)
seriesy3=@rpoisson(9)
用级数公式
推导服从poisson分布随机变量全部取值结果的概率和等于1。
poisson分布随机变量Yi的期望是
E(Yi)=
求poisson分布随机变量Yi的方差。
分成两步。
先求(Yi2)的期望。
E(Yi2)=E[Yi(Yi-1)+Yi]=E[Yi(Yi-1)]+E(Yi)
=
则(Yi)的方差是
Var(Yi)=E(Yi2)–[E(Yi)]2=2+-2=
服从poisson分布随机变量的期望与方差相同。
在计数模型中假定Yi=yi服从poisson分布。
而Yi的值与解释变量Xi和回归系数有关系。
E(Yi)=的最常见表达式是对数线性的。
Ln=Xi,或者E(Yi)==
所以E(Yi∣Xi)=Var(Yi∣Xi)==
当Yi已知,未知时,似然函数为
=
其中N表示观测值个数。
对数似然函数是
LnL()=
似然方程是
=
=0
海塞矩阵是
=
海塞矩阵对所有Xi和都是负定的,所以有极大值存在。
检验Xi是否有解释作用的LR检验统计量定义是
LR=
其中
表示非约束模型极大似然函数值(解释变量Xi存在时的极大似然函数值,即对不加约束的极大似然函数值。
概率取对数的和的极大值)。
表示约束模型极大似然函数值(解释变量Xi不存在时的极大似然函数值,即对约束为零的极大似然函数值)。
如果条件均值函数定义正确,Yi的分布属于poisson分布,那么的极大似然估计量具有一致性、有效性和渐近正态性。
假定服从泊松分布的Yi的均值与方差是相等的,称数据是等离散的,但实际计数数据的方差通常远大于均值,称这一特征为过离散(over-dispersion)。
数据的过离散是由于截面数据的异质性决定的。
为了更好的描述数据的过离散特征,即数据的异质性,在假定随机计数yi服从poisson分布
P{yi}=
yi=0,1,...
(其中0)的同时,还假定参数不再是一个常数,不再是一个仅由Xi决定的量,而是一个随机变量。
比如用=ivi表示。
其中i=
,而vi0,是一个以g(vi)为密度函数的独立同分布随机变量,为未知参数。
如果E(vi)=1,则E()=i,退化为原来(等离散)的poisson分布。
若=ivi,则yi基于i和vi的分布是以ivi为均值和方差的poisson分布。
f(yiXi,vi)=
则对于vi为无条件分布,对于Xi,为有条件分布的f(yiXi)是有条件分布f(yiXi,vi)在vi上的期望,
f(yiXi)=
其中g(vi)称为混合分布,表示观测不到的异质性。
即不同的观测值yi,有可能来自不同的poisson分布,这种不同部分来自于随机变量vi。
为未知参数。
上式表示了平均分布(因有条件vi0。
期望E(X)=
)。
g(vi)相当于求期望公式中的概率密度函数。
在积分式中,若把g(vi)定义为伽玛(Gamma)分布密度函数((,)),
g(vi)=
其中0,β0。
称为形状参数(shapeparameter),β称为尺度参数(scaleparameter)。
()=(-1)!
。
=1。
E(vi)=/β,Var(vi)=/β2。
伽玛分布密度函数gamma(1,1)分布随机数
令E(vi)=1,(则=β),Var(vi)=1/=1/β。
则得到yi的负二项(NegativeBinomial)分布的混合概率密度函数表达式
f(yiXi)=
=
=
=
=
=
=
服从负二项分布的yi的期望和方差分别是
E(yii,)=i,Var(yii,)=
,其中0,i0。
因为0,i0,服从负二项分布的yi的方差一定大于期望。
所以,可以用来描述yi分布的异质性。
由Var(yii,)=
知,yi分布的方差是期望i的2次函数。
有时也可以把yi分布的方差设定为i的1次(线性)函数。
Var(yii,)=(1+)i
通常把服从负二项分布的yi,并有i的二次函数方差的模型称作NB2(NegativeBinomial2)模型。
把服从负二项分布的yi,并有i的线性函数方差的模型称作NB1模型。
实际中NB2模型的用途更广些。
数据等离散的计数模型采用极大似然估计法估计模型参数。
数据过离散的服从负二项分布(NB)计数模型采用模拟极大似然估计法估计模型参数。
下面以NB2模型为例介绍模拟极大似然估计法(MSL,maximumsimulatedlikelihood)原理。
yi的负二项分布的混合概率密度函数
f(yiXi)=
可以近似表示为
。
vj,(j=1,...,K)是按g(vi)的分布生成的伪随机数。
比如g(vi)代表均值为1,方差为1/的伽玛分布。
K表示模拟次数。
令uj表示均匀分布的随机变量,并令vj=-Lnuj,则模拟算子表示为
则模拟极大似然函数是
其中i=
。
当K,N,
0,模拟极大似然估计量与极大似然估计量渐近相等。
注意:
由于poisson分布能够很好地用来描述计数模型,所以混合poisson分布也常用来描述计数模型。
g(vi)设定为负二项分布只是选择之一。
有时也可以选择对数正态分布或者逆高斯分布。
观察由=3的指数分布随机数生成的200个值的序列图与频数分布图。
EViews操作:
在generatereries窗口键入:
y_exp=@rexp(3)。
观察200个指数分布值的序列图和频数分布图。
观察由参数(1,.2)的负二项分布随机数生成的200个值的序列图与频数分布图。
EViews操作:
在generatereries窗口键入:
y_negbin=@rnegbin(1,.2)。
观察200个负二项分布值的序列图和频数分布图。
计数模型案例:
(count-model01)个人特征、健康状态、医疗保险状态如何影响看医生次数。
数据取自RAND公司19741982年数据。
本研究的目的评价患者使用医疗服务如何受随机签署的健康保险(包括免费服务、健康维护组织)影响。
数据取自覆盖整个国家的6个地点的2823个家庭的8000个入会者。
每个家庭都签署了14个35年的健康保险之一。
保险的范围是从免费到95%共保。
关键的问题是保单是随机签的,不是自由挑选的。
所以不存在内生处理效应问题。
本研究的数据只取自“免费服务计划”。
数据由利用、花费、人口统计特征、健康状况、健康保险状况等变量组成。
样本共包括20186组数据。
每组数据都是一个给定年的数据。
MDU表示看医生次数。
看医生次数以及相应频率如下表:
看医生次数
相应频率(%)
看医生次数
相应频率(%)
看医生次数
相应频率(%)
0
31.2
7
2.6
14
0.4
1
18.9
8
2.0
15
0.3
2
13.8
9
1.4
16
0.3
3
9.3
10
1.0
。
。
。
4
6.7
11
0.9
2277
1.0
5
4.8
12
0.6
6
3.4
13
0.5
看病次数(MDU)的频率分布如下:
输入命令“mdu.freq”(按回车键)得
在序列窗口,点击View,选onewaytabulation。
点击OK。
TabulationofMDU
Date:
10/06/09Time:
18:
35
Sample:
120186
Includedobservations:
20186
Numberofcategories:
59
Cumulative
Cumulative
Value
Count
Percent
Count
Percent
0
6308
31.25
6308
31.25
1
3815
18.90
10123
50.15
2
2795
13.85
12918
63.99
3
1884
9.33
14802
73.33
4
1345
6.66
16147
79.99
5
968
4.80
17115
84.79
6
689
3.41
17804
88.20
7
531
2.63
18335
90.83
8
408
2.02
18743
92.85
9
287
1.42
19030
94.27
10
206
1.02
19236
95.29
11
190
0.94
19426
96.24
12
118
0.58
19544
96.82
13
109
0.54
19653
97.36
14
82
0.41
19735
97.77
15
59
0.29
19794
98.06
16
56
0.28
19850
98.34
17
33
0.16
19883
98.50
18
37
0.18
19920
98.68
19
35
0.17
19955
98.86
20
26
0.13
19981
98.98
21
22
0.11
20003
99.09
22
19
0.09
20022
99.19
23
19
0.09
20041
99.28
24
13
0.06
20054
99.35
25
8
0.04
20062
99.39
26
10
0.05
20072
99.44
27
6
0.03
20078
99.46
28
12
0.06
20090
99.52
29
6
0.03
20096
99.55
30
8
0.04
20104
99.59
31
8
0.04
20112
99.63
32
4
0.02
20116
99.65
33
5
0.02
20121
99.68
34
9
0.04
20130
99.72
35
5
0.02
20135
99.75
37
5
0.02
20140
99.77
38
9
0.04
20149
99.82
39
1
0.00
20150
99.82
40
3
0.01
20153
99.84
41
5
0.02
20158
99.86
44
6
0.03
20164
99.89
45
2
0.01
20166
99.90
46
2
0.01
20168
99.91
48
2
0.01
20170
99.92
51
1
0.00
20171
99.93
52
3
0.01
20174
99.94
55
1
0.00
20175
99.95
56
1
0.00
20176
99.95
57
1
0.00
20177
99.96
58
1
0.00
20178
99.96
62
1
0.00
20179
99.97
63
1
0.00
20180
99.97
65
1
0.00
20181
99.98
69
1
0.00
20182
99.98
72
1
0.00
20183
99.99
74
1
0.00
20184
99.99
76
1
0.00
20185
100.00
77
1
0.00
20186
100.00
Total
20186
100.00
20186
100.00
看医生次数(MDU)的频数分布见上图。
呈右偏态。
数据的均值=2.86。
数据的方差是4.52=20.25远远大于均值2.86。
属于过分散数据。
分别建立Poisson和NB2模型,并用PoissonML、PoissonQML、NB2QML的方法进行参数估计,PoissonML和PoissonQML估计的参数值是一样的,但PoissonQML可以大大降低z统计量的值。
因变量和解释变量定义如下:
因变量:
MDU:
看医生次数。
解释变量:
LC=ln(coinsurance+1),其中coinsurance表示共保率(%),取值范围是[0,100]。
IDP:
如果属于“个人减免计划”则为1,否则为0。
LPI=ln(max(1,参与者每年刺激性消费))。
FMDE:
如果IDP=1则值为0;否则为ln(max(1,医疗保险赔付额/0.01coinsurance))。
LINC:
对数的家庭收入。
LFAM:
对数的家庭大小。
AGE:
年龄。
FEMALE:
女性为1,否则为0。
CHILD:
年龄小于18岁为1,否则为0。
FEMCHILD=FEMALE*CHILD:
女孩儿为1,否则为0。
BLACK:
如果一家之主是黑人则取值为1,否则为0。
EDUCDEC:
一家之主受教育年限。
PHYSLIM:
身体有残疾则为1,否则为0。
NDISEASE:
患慢性疾病个数。
HLTHG:
自测健康状态良好为1,否则为0。
HLTHF:
自测健康状态中等为1,否则为0。
HLTHP:
自测健康状态差为1,否则为0。
基础类别是自测健康状态极好。
Poisson和NB2(负二项)模型估计结果如下:
Poisson回归
PoissonQML
NB2-QML
Model
Coefficient
z-Statistic
Coefficient
z-Statistic
Coefficient
z-Statistic
C
-0.189877
-3.9
-0.189877
-1.5
-0.206930
-1.8
LC
-0.042733
-7.0
-0.042733
-2.8
-0.050440
-3.2
IDP
-0.161317
-13.9
-0.161317
-5.8
-0.147598
-4.9
LPI
0.012851
7.0
0.012851
2.9
0.015835
3.6
FMDE
-0.020613
-5.8
-0.020613
-2.3
-0.021335
-2.4
LINC
0.083410
16.1
0.083410
6.0
0.084517
7.4
LFAM
-0.129663
-14.5
-0.129663
-5.7
-0.122677
-5.3
AGE
0.002376
5.5
0.002376
2.1
0.002594
2.3
FEMALE
0.348767
30.7
0.348767
12.3
0.367288
12.9
CHILD
0.336190
18.9
0.336190
8.3
0.306032
7.1
FEMCHILD
-0.362522
-20.2
-0.362522
-8.2
-0.375550
-8.4
BLACK
-0.680052
-43.7
-0.680052
-18.4
-0.710437
-19.8
EDUCDEC
0.017615
10.7
0.017615
4.4
0.016258
4.0
PHYSLIM
0.268405
21.7
0.268405
8.2
0.275172
8.1
NDISEASE
0.023183
38.1
0.023183
13.5
0.025935
15.3
HLTHG
0.039400
4.1
0.039400
1.7
0.006537
0.3
HLTHF
0.253112
15.6
0.253112
5.9
0.236864
5.4
HLTHP
0.521603
19.1
0.521603
7.0
0.425657
6.2
lnx
0.167421
8.9
LnL
-60087.62
-60087.62
-42777.61
E(MDU)=EXP(-0.1899-0.0428LC-0.16139IDP+0.0129LPI-0.02069FMDE
(-3.9)(-7.0)(-13.9)(7.0)(-5.8)
+0.08349LINC-0.1297LFAM+0.0024AGE+0.3488FEMALE+0.3362CHILD
(16.1)(-14.5)(5.5)(30.7)(18.9)
–0.3625FEMCHILD-0.6801BLACK+0.0176EDUCDEC+0.2684PHYSLIM
(-20.2)(-43.7)(10.7)(21.7)
+0.0232NDISEASE+0.0394HLTHG+0.2531HLTHF+0.5216HLTHP)
(38.1)(4.1)(15.6)(19.1)
LC表示对数的共保率(%),共保率可以提供价格影响的信息。
共保率越高,病人承担的部分就越高。
较低表示患者平均看医生次数。
Poisson回归系数是-0.0428,t=-7.0有显著性,说明共保率对看病次数的影响是负的(于理论一致)。
-0.0428表示看病次数对对数共保率的边际系数。
共保率越高,则病人平均看医生次数越低。
Poisson回归系数0.08349表明,对数的家庭收入越高,病人平均看医生的次数就越高。
Poisson回归系数-0.1297表明,对数的家庭规模越大,平均看医生的次数就越少。
Poisson回归系数0.0024表明,病人的年龄越大,平均看医生的次数就越多。
Poisson回归系数0.3488表明,女性病人平均看医生的次数多于男性病人。
Poisson回归系数0.3362表明,少年和儿童平均看医生的次数多于成年人。
Poisson回归系数–0.3625表明,女童平均看病的次数少于男童。
Poisson回归系数-0.6801表明,黑人家长家庭的成员平均看病的次数少于其他家庭。
Poisson回归系数0.0176表明,受教育高的人平均看病的次数多于受教育低的人。
Poisson回归系数0.2684表明,身体有残疾的人平均看病的次数多于无残疾的人。
Poisson回归系数0.0232表明,患慢性疾病的人平均看病的次数多于无患慢性疾病的人。
HLTHG、HLTHF、HLTHP三变量的回归系数表明,自测健康状态越好的人看医生的次数就越少。
怎样评价Poisson回归对数据拟合得好?
一个简单的方法就是看不同看医生次数条件下,实际值与模型拟合值之间差异是否很大。
把模拟出的MDUf值代入
P{yi}=
yi=0,1,...
并分别计算yi=0,1,2,…,9时对应的频率。
P{yi=0}=
,yi=0
P{yi=1}=
,yi=1
。
。
。
P{yi=9}=
,yi=9
的表如下:
看医生次数
0
1
2
3
4
5
6
7
8
9
样本频率(%)
31.2
18.9
13.8
9.3
6.7
4.8
3.4
2.6
2.0
1.4
泊松模型拟合频率(%)
10.6
19.2
20.9
17.6
12.6
7.99
4.69
2.64
1.46
0.8
NB2模型拟合频率(%)
30.9
19.6
13.6
9.67
6.97
5.07
3.70
2.72
2.0
1.47
注:
样本频率见频率分布表。
比较发现泊松模型低估了0值发生的频率,实际中0值发生的次数远多于模型估计出的0值个数。
模型高估了看医生1至7次发生的概率。
说明原计数数据是过离散的,Poisson模型忽略过离散特征导致低估0次看医生发生的概率。
类似的方法求出NB2(负二项)模型的拟合频率,发现与原序列的频率非常近似,所以考虑了过离散特征的NB2模型更合适!
模型预测值MDUF指的是每个个体的平均看大夫次数。
隐变量若用Y表示,则Y=Xi。
预测值MDUF与隐变量Y的关系是
MDUF=exp(Y)=exp(Xi),或Ln(MDUF)=Y=Xi。
Poisson模型估计结果
指数模型估计结果
负二项分布模型估计结果
EViews操作:
Poisson分布,负二项分布(NegativeBinomial),指数分布(Exponential)条件下ML估计的操作步骤:
准极大似然估计(QML)的操作:
激活Option模块,在Covariance中选中RobustCovariance。
有两种方法可用。
Huber/White和GLM。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计数 模型 理论 应用