中国基尼系数的估算研究重点.docx
- 文档编号:27639396
- 上传时间:2023-07-03
- 格式:DOCX
- 页数:17
- 大小:28.54KB
中国基尼系数的估算研究重点.docx
《中国基尼系数的估算研究重点.docx》由会员分享,可在线阅读,更多相关《中国基尼系数的估算研究重点.docx(17页珍藏版)》请在冰豆网上搜索。
中国基尼系数的估算研究重点
经济评论2009年第3期ECONOMICREVIEWNo.32009
中国基尼系数的估算研究
王祖祥张奎孟勇*
摘要:
中国的收入不平等受到了国内外的广泛关注。
公开出版物上的收入分配数据
都是分组形式的,这给收入不平等的测算带来困难。
本文采用城乡收入分配统计分布的
构造方法,利用中国统计年鉴(1995-2005)的收入分配数据估算了我国的基尼系数。
结果表明,我国目前城镇与农村两部门内部的基尼系数都不大,都没有超过0.34,但从
2003年开始,我国的加总基尼系数已经超过了0.44,远远越过了警戒水平0.4。
实际上,
基尼系数的分解公式说明,影响我国收入不平等程度的关键因素是目前巨大的城乡收入
差距,是这一因素决定了我国的基尼系数必然很大。
关键词:
收入分配洛伦兹曲线基尼系数密度函数
中国的收入不平等程度受到了国内外的广泛关注,出现了各种各样的基尼系数估计值。
我国每年在中国统计年鉴中都发布收入分配数据,但一般认为利用该数据难以估算基尼系数(王学力,2000),一是因为这种数据是分组形式的,城镇收入分配数据中只列出了从低到高若干个收入组的平均收入与人口份额,农村收入分配中只给出了各个收入区间及各个区间内的家庭百分数,二是城乡数据分列。
实际上,寻求收入分配的统计分布是现代收入分配分析活跃的研究领域,洛伦兹曲线正是从收入分配的密度函数出发而定义的,又按定义,基尼系数是洛伦兹曲线与平等收入线之间面积的2倍,可见基尼系数的估算应建立在收入分配统计分布或洛伦兹曲线的准确测算的基础上。
实际工作中,在只有分组数据可用的条件下,可以先估计收入分配的密度函数,从而得到相应的洛伦兹曲线,或直接估算洛伦兹曲线,最后再估计基尼系数。
国外经济理论文献中基尼系数的估算一般遵循两种途径,一是利用分户数据直接估计收入分配的密度函数从而估算基尼系数,二是利用分组数据估计洛伦兹曲线,然后再估算基尼系数。
我国统计部门的城乡收入分配调查的分户数据不对外公开,因此本文考虑使用统计年鉴中的分组数据。
实际上,使用统计年鉴中的数据时,城镇基尼系数的估算可以使用第二种方法,而对于农村收入分配数据,由于缺少各个收入区间内的平均收入信息使得不能利用第二种方法。
王祖祥(2006)提出了根据我国收入分配分组数据构造收入分配密度函数的方法,估算了我国中部六省的基尼系数。
使用这种方法,只要相关部门提供信息量不高的分组数据,就可以计算我国任何部门、任何地域的基尼系数与其他大多数收入不平等指数,还可以利用现代收入分配分析方法对我国的
收入分配进行进一步的分析。
本文利用王祖祥(2006)提出的方法(同时改进了其中城镇密度函数的构造方法),估算了我国最近10年的基尼系数,实际计算表明,我国目前城镇与农村两部门内部的基尼系数都不大,都没有超过0.34,但从2003年开始,我国的加总基尼系数已经超过了0.44,远远越过了警戒水平0.4。
实际上,基尼系数的分解公*王祖祥,武汉大学经济与管理学院,邮政编码:
430072,电子信箱:
zxwang@;张奎,武汉大学经济与管理学院,邮政编码:
430072;孟勇,山西财经大学统计学院,邮政编码:
034000,电子信箱:
m7025y@。
本文研究得到了国家社科基金重点项目(批准号04AJL002)与湖北省社会科学基金重点项目湖北省农村贫困动态评估研究的资助。
国内很多学者考虑了我国基尼系数的估算问题,例如李实等(1998)、李强等(1995)、胡祖光(2004)、董静和李子奈(2004)等。
使用我国统计年鉴中的分组数据,Chotikapanich等(2007)也考虑了我国的基尼系数,该文利用一种经验分布来逼近我国农村分组数据,计算得到的农村基尼系数与本文结果相差不大。
式说明,影响我国目前收入不平等的决定因素是农村与城镇之间的收入差距。
从最后得到的全国洛伦兹曲线可见,2004年中占人口份额50%的低收入群体所拥有的收入份额只有20%左右,人口份额为10%的高收入端拥有近32%的总收入,这部分人口拥有的总收入是最低收入端10%群体的近20倍。
因此,我国的收入不平等问题的动向值得关注。
一、城乡加总基尼系数的计算公式
我国城乡两部门收入分配数据分列,如何加总两部门的收入分配进而形成全国的加总收入分配一直是困扰我国经济理论界的一个问题。
实际上,一旦收入分配密度函数的估算问题得到解决,这一问题将迎刃而解。
这里先讨论基尼系数的一种分解公式,再说明收入分配统计分布的加总方法。
收入分配的洛伦兹曲线L(p)在收入分配分析中具有重要地位,L(p)表示人口份额等于p的低收入端拥有的总收入份额,因此L(p)是定义于[0,1]区间上的函数。
按经济意义,它应满足如下条件:
(1)L(p)是p的增函数,即有L(p)0。
因为所考虑的低收入端人口份额p越大,该群体拥有的总收入份额应越大。
(2)L(p)是凸函数,即满足L(p)0。
因为p增加到p+p时,人口份额p所代表的是收入更高的群体,因此p增加时,L(p)应以更大比例增加。
(3)L(p)0,因为收入份额不能是负数。
(4)L(0)=0,L
(1)=1。
如果对于任何p[0,1]都有L(p)=p,则此洛伦兹曲线是所谓平等收入线。
对于任何洛伦兹曲线L(p),基尼系数定义为L(p)与平等收入线之间面积的2倍。
记农村与城镇两部门人口的总数为n,记农村人口数为n1,城镇人口数为n2,记第i个部门内的收入分配为Yi=(yi1,yi2,,yini),即第i个部门内第k个成员的收入为yik,本文恒假定任何成员的收入都大于或等于零。
两部门的收入分配合在一起构成全国的收入分配Y。
记第i个部门内成员的平均收入为i,记第i个
ni部门内的成员占总成员的份额为pi=可见总平均收入为=(n11+n22)=p11+p22,下面记第i个nn
nii
部门的所有成员拥有总收入的份额为si=。
n
按定义,第j个部门内的基尼系数可以表示为:
Gj=2njj
又记:
G12
=[n1n2(1+2)i=1
n1
njnj
i=1r=1
yji-yjr
n2
(1)
r=1
y1i-y2r]
(2)
同样定义G21,可见有G21=G12。
记全国基尼系数为G(Y),Dagum(1997)给出了基尼系数的如下分解公
式:
G(Y)=p1s1G1+p2s2G2+p1s2G12+p2s1G21=p1s1G1+p2s2G2+(p1s2+p2s1)G12(3)
由此即可计算我国城乡合一的基尼系数。
Dagum称G12为两部门的扩展基尼系数,它反映了两部门的组间不平等程度。
(3)式是离散条件下精确的基尼系数公式,由于只能得到分组形式的收入分配数据,因此不能用它进行实际计算。
如果已知农村与城镇收入分配的洛伦兹曲线,分别记为L1(p)与L2(p),或已知两个收入分配的密度函数,例如记为f1(x)与f2(x),则由连续条件下的基尼系数定义,农村与城镇的基尼系数G1与G2有如下公式:
Gi=1-20Li(p)dp=1-i
在连续分配条件下,对应于
(2)式的公式为:
G12=
1+2
1
yf(y)dyf(x)dx
x0
i
i
(4)
x-yf(x)f(y)dxdy
1
(5)
与绝大部分国外学者一样,笔者用连续分布来逼近离散的收入分配,这样,估计我国基尼系数的关键是构造收入分配的近似密度函数,只要这一问题解决了,将(4)式与(5)式代入(3)式即得到我国的基尼系数,同时还得到了反映两部门之间不平等的指标G12。
由(5)式容易看出,当2>1时,如果收入分配Y1与Y2的收入范围不重叠,则有G12=2-1。
又直观上可见Y1与Y2的重叠程度越小,则G12越大,因此G12还反映了两个收入分配的收入范围的重叠程度。
这样,(3)式中最右边第三项将对我国的基尼系数有重要影响,因为我国城乡收入差距很大,即两部门收入分配的重叠程度不大,从而可以预料G12会很大。
又我国农村人口比例p1较大,而城镇人口拥有的总收入份额s2也较大,因此(3)式中G12的系数p1s2+p2s1将不小。
这两方面因素决定我国的基尼系数不会小。
注意到有:
1-2=(x-y)g(x)g(y)dxdy0012x-yg(x)g(y)dxdy0012
因此得到G12的下界估计:
G121-2
1+2
例如2003年我国农村人均纯收入为.24,城镇平均可支配收入为.20,考虑这两个1=26222=8472
分配构成全国收入分配Y时就有:
G120.5272875
注意到将上述G12的下界代入(3)式可以得到基尼系数的一个下界。
归纳起来得到:
定理1:
中国收入分配的基尼系数可以表示为(3)式,基尼系数的下界为:
p1s1G1+p2s2G2+(p1s2+p2s1)1-2
1+2
其中pi、si、i与Gi分别是部门i内的人口份额、收入份额、平均收入与基尼系数,G12是两部门的扩展基尼系数。
显然,如果估计得到了城镇与农村收入分配的密度函数,分别记为f1(x)与f2(x),记相应分布函数分别为F1(x)与F2(x),F1(x)表示城镇人口中收入不高于x的人口占城镇总人口的份额,F2(x)表示农村人口中收入不高于x的人口占农村总人口的份额,于是全国人口中收入不高于x的人口占全国总人口的份额应为:
于是全国收入分配的密度函数应为:
F(x)=p1F1(x)+p2F2(x),F(x)即全国收入分配的统计描述。
f(x)=p1f1(x)+p2f2(x)。
按洛伦兹曲线与基尼系数的定义,如果估计得到了两部门的密度函数f1(x)与f2(x),就可以得到整个国家的洛伦兹曲线L(p)的另一公式:
L(p)=其中,p=F(x),而全国基尼系数公式为:
G(y)=1-00yf(y)dyxxf(x)yf(y)dydx0
其中,是全国平均收入。
因此,如果得到了两部门的密度函数,一是可以利用(5)式估计两部门之间的收入不平等,二是可以通过定理1得到基尼系数的下界估计,三是可以通过(4)式与(3)式或上述积分计算两部门或全国的基尼系数。
同时,利用这些密度函数还可以进行收入分配的其他分析。
可见,获得收入分配密度函数的方法本身具有重要意义。
二、城镇密度函数的构造方法
一般各国统计部门都是通过抽样调查对收入分配进行估计,又由于保密等原因,一般将抽样数据化成分组形式予以发布,理论界只能在这种数据的基础上对收入分配进行分析。
根据可能得到的数据形式,可以直接估算收入分配的密度函数,第三部分构造农村收入分配的密度函数时将采用这一方法。
也可以从估计洛伦兹曲线入手获得密度函数,这里采将用这一方法获得城镇收入分配的密度函数,将按经济意义与数学性质王祖祥(2006)使用了这种加总公式,Chotikapanich等(2007)也是使用这种加总分布计算我国基尼系数的。
选择适当的函数作为洛伦兹曲线的经验公式,再利用分组数据估计其中的参数,从而得到近似洛伦兹曲线,最后利用洛伦兹曲线与密度函数的关系而得到后者。
设收入分配的密度函数为r(x),相应分布函数记为R(x),记p=R(x),则由于洛伦兹曲线定义为:
1x
L(p)=tr(t)dt0
其中是相应的平均收入,则可见有:
dL(p)dL(p)dxx==dpdxdp=2dp2(6)(7)
因此对于任何x,从(6)式解出p,即得到x处的分布函数值p=R(x)。
又对于任何p=R(x),计算二阶导数值L(p),由(7)式即得x处的密度函数值r(x)。
在中国统计年鉴的城镇收入分配分组数据中,依收入从低到高给出了m+1(=8)个收入组的家庭数、每组家庭的平均人口、年人均可支配收入,另给出了平均可支配收入,但没有收入区间信息。
依每组家庭的平均人口可以算出每组的人口份额,记第i个收入组的人口份额为fi,平均收入为i。
于是前i个低收入组的人口份额为pi=i
j=0fj,这部分成员拥有的收入份额为L(pi)=m+1ij=0fjj。
因此由分组数据能够得到洛伦兹曲线上的点列(pi,L(pi))i=1。
对于满足洛伦兹曲线条件的适当函数L(p,),其中是参数向量,通
过解所谓非线性最小二乘问题:
m+1
min(Li(pi)-L(pi,))2
i=1
确定,其中目标函数的最优值是所谓残差平方和。
显然,该残差平方和越小,相应经验公式L(p,)越好。
对于给定的函数形式L(p,),上式是一个非线性规划问题,可以使用一般非线性规划方法求解,笔者使用Levenberg-Marquardt算法(何光渝,1993)编程求解上述问题,该算法是一种可靠的非线性最小二乘参数估计方法。
下面讨论中为简化记号而约去参数向量。
寻找合适的经验公式L(p,)的研究工作是活跃的研究领域,有关参考文献很多,例如Chotikapanich(1993),Kakwani等(1973,1976),Rasche(1980),Ortega(1991),Schader(1994),Ogwang(1996)等。
比较著名的是Kakwani(1986)给出的如下经验公式:
L(p)=p-ap(1-p)(8)
其中约去了参数向量=(a,,),可见此公式中含有三个参数,它们应满足a>0,>0,>0。
用(8)式对很多国家收入分配的洛伦兹曲线进行拟合时,残差平方和往往很小。
但此式的缺点是p0+时,L(p)-,这导致L(p)在p=0的-邻域内有一负的极小值。
Ortega(1991)提出了只含两个参数的著名改进公式以克服这一问题:
L(p)=p(1-(1-p))
改进公式:
L(p)=p(1-(1-p))(9)并证明当(0,1]时,对于任何>0,L(p)满足洛伦兹曲线的条件。
我们进一步提出如下三个参数的(10)
后面的计算结果显示,对我国的城镇数据,用(10)式能够得到比(9)式更理想的拟合结果。
计算结果中,城镇收入分配都使用(10)式进行拟合。
由此得到:
定理2当(0,1]、(0,1)、1时,(10)式定义的L(p)满足洛伦兹曲线的条件。
若=1,则对于任何(0,1]及任何>0,(10)式中L(p)满足洛伦兹曲线的条件(证明见附录1)。
定理3当使用洛伦兹曲线经验公式(9)或(10)时,r(x)满足密度函数的条件,即有r(x)0,且r(x)dx=1,xr(x)dx=(证明见附录2)。
00
三、农村收入分配密度函数的构造
农村收入分配密度函数的构造相对更困难。
中国统计年鉴中给出了农村纯收入分配的分组数据,其
中含从低到高的收入区间(x0,x1],[x1,x2],,[xm,xm+1)与各个收入区间上的家庭份额,另给出了总人均纯收入与家庭平均人口数。
显然对这种形式的数据,不能使用第二部分中的方法来构造密度函数。
实际计算说明,用下面所述的二次样条函数来逼近密度函数时可以得到比较理想的效果,王祖祥等(2006)利用这一方法对农村贫困问题进行了评估,结果发现这种方法是非常有效的。
为完整起见,下面对这一方法进行简单描述。
记农村密度函数为g(x),第i个区间[xi-1,xi]内成员份额为fi,设[xi-1,xi]上g(x)的表达式为:
gi(x)=ai+bi(x-xi-1)+ci(x-xi-1)
x
xi2要求gi(x)满足连续性条件gi(xi)=gi+1(xi)与导数连续性条件gi(xi)=gi+1(xi),并要求满足分布函数条件g(x)dx=f,以此来确定其中的参数a、b、c,从而得到g(x)在区间[xiiiii
i-1i-1,xi]上的表达式。
对密
度函数进行分段逼近的方法并不是新思想,Kakwani(1980)甚至采用密度函数的线性逼近,但线性方法产生的逼近有可能不满足密度函数的条件,且可能振荡得很厉害。
对于任何区间[xi-1,xi],若记hi=xi-xi-1,按所给出的3个条件,可以得到gi(x)应该满足的三个方程:
ai+bihi+cihi-ai+1=0
bi+2cihi-bi+1=0
aihi+2bihi+3cihi=fi
综合m+1个区间得到3(m+1)3(m+1)阶的线性方程组,解之即得到密度函数的分段二次多项式逼近。
显然限制条件:
g1(x0)=0,gm+1(xm+1)=0
是合理的,加上这两个条件后,方程组可以减少两阶。
本文稍后结论都是加上这一限制时得到的。
实际数据中并没有给出最后收入区间的右端点xm+1,笔者将xm+1取成Kxm,例如K=100。
计算实践说明取K=100与取K=1000得出的基尼系数几乎没有差别。
样条拟合方法是逼近论中的著名方法,DeBoor(1978)曾对有关理论问题进行过深入广泛的讨论。
上述方法容易出现的问题是g1(x)与gm+1(x)可能不满足非负性条件,若出现这种问题,则可以将这两段曲线换为其他逼近,例如将它们分别换为帕累托分布:
g1(x)=a(x/x1),gm+1(x)=(bx+c)(xm/x)
其中,要求g1(x)在x1处满足连续性条件g1(x1)=g2(x1)与密度条件
x1x01232
足连续性条件gm+1(xm)=gm(xm)、密度条件与平均收入条件:
xg(x)dx=f,而要求g(x)在xg(x)dx=f,xg(x)dx=f1m+1m+1m+1
mm处满,其xm+1m+1m+1
m
中,gm(x)后,即能得到前面各个区间上的m+1是[xm,)上人口的平均收入。
注意到,估计得到g1(x),
平均收入,1,2,m等,由于总平均收入应满足条件:
=fm+1m+1+fi=1iim
从中即可确定m+1。
这样既保证了产生的近似密度函数满足平均收入条件,也保护了平均收入这一数据信息。
这样处理时区间[xm,)上的密度曲线可能隆起一个小的峰,但观察洛伦兹曲线的图形可以预料,对最高收入区间上的微小摄动对估算基尼系数的影响不大。
帕累托分布是国外经济学界在收入分配分析中经常使用的分布,有关参考文献见Kakwani(1986)等。
四、基尼系数的估算结果
国家统计局每年城乡调查规模甚大,例如2003年两部门调查总户数达到了116218户,这不能算是小样本调查,因此计算结果应该具有一定的可信度。
观察中国统计年鉴中的数据可以发现,农村收入分配与城镇收入分配呈现较大的收入差距,例如2003年农村人均纯收入2500元以下者占总调查户的55.12%,这些人的收入属于城镇困难户的水平,也就是说,城乡两个收入分布的重叠部分相对较小,因此两个收入分配合并形成的收入分配的基尼系数不会很小。
笔者利用1995-2004年的数据,考虑农村纯收入的分配与城镇可支配收入分配时,得到如表1的计算
结果。
表1中国农村、城镇及加总收入分配的基尼系数
年份农村基尼系数城镇基尼系数扩展基尼系数全国基尼系数20040.3140510.3348570.5247780.5401620.4323130.440505
20030.3227980.3284520.5272880.5435960.4338870.442622
20020.3128600.3175300.5135540.5309130.4217060.431016
20010.3102700.2724880.4870140.5020220.3955400.403550
20000.3030180.2531330.4718590.4859800.3816150.389115
19990.2906620.2412470.4518250.4657930.3653740.372721
19980.2815470.2336190.4300850.4455630.3497210.357752
19970.2884550.2261170.4234480.4397530.3470590.355427
19960.3057030.2152350.3888620.4214920.3334910.349795
19950.3054400.2150350.4232020.4417510.3512500.360543
数据来源:
农村取纯收入的收入分配,城镇取可支配收入的收入分配。
收入分配数据见中国统计年鉴(1995-2005)。
可见我国城镇人口内部的基尼系数从比农村基尼系数低9个百分点左右,上升到高于农村基尼系数2个百分点的水平,10年间增加了近12个百分点,同时也说明1995-2004年城镇人口之间的收入分配格局发生了巨大变化。
与此相反,过去10年中我国农村人口内部的基尼系数却变化不大,几乎始终在0.30左右徘徊。
一般经济快速发展过程中,收入分配格局往往随之发生变化,改革开放二十多年来,相对于农村地区,我国的经济增长主要发生于城镇部门,可见两部门内部的基尼系数的变化恰好反映了这一点。
我国城镇部分的基尼系数虽然增长速度可观,但目前仍处于可以接受的范围内,都没有超过0.35。
观察表1中最后一列,可见两部门加总基尼系数由0.35左右逐渐变化到0.44左右,10年中增加了近9个百分点,这一增速非常快。
目前我国加总基尼系数的值远远超过了警戒水平0.4。
值得注意的是扩展基尼系数的变化,10年间它增加了10个百分点,且目前达到了0.54这一比较高的水平,这反映了城镇与农村两部门的收入不平等快速增加,因为扩展基尼系数最大不会超过1。
由(3)式可见,由于我国目前两部门的基尼系数都不算大,但加总基尼系数却增加甚速,原因之一是城镇内部的基尼系数快速增加,原因之二是城乡两部门之间收入差距的迅速扩大。
但由于我国农村人口比重远大于城镇,由(3)式可见后一原因对基尼系数快速增加的贡献更大。
表1还说明,目前我国的加总基尼系数不会低于0.43,城镇农村两部门之间的收入不平等不会低于0.52。
有人怀疑我国农村内部或城镇内部的基尼系数可能很高了,达到了0.4以上。
这种估计可能过高,因为以2003年为例,农村人口拥有总收入的份额为s1=0.31,城镇人口拥有的份额为s2=0.69,农村与城镇的人口份额分别为p1=0.59与p2=0.41,两部门的平均收入分别为,按定理1,当农村与1=2622与2=8472
城镇内部的基尼系数都取0.4时,该年基尼系数不能低于:
(p1s1+p2s2)0.4+(p1s2+p2s1)8472+2622
=0.46580.4+0.53420.5270.4678
这样2003年的基尼系数应在0.47以上。
由上式可见,正是巨大的城乡收入差距决定了我国的基尼系数必然很大,因为即使在上式中把农村与城镇的基尼系数都换为0.3,由于城乡收入差距的作用,2003年我国的整体基尼系数也会达到0.42左右。
表2中给出了利用(9)式与(10)式对城镇数据进行拟合时计算得到的参数,感兴趣的读者可以用中国统计年鉴上的数据对表1中城镇基尼系数进行验证,更重要的是可以将这些参数代入(9)式或(10)式而得到我国城镇收入分配的洛伦兹曲线,从而可能对城镇收入分配展开进一步的分析。
首先注意到,表中公式(9)的参数、都属于区间(0,1),因此代入(9)式后产生的曲线都满足洛伦兹曲线的条件。
由定理2可见,表中公式(10)的参数使该式也满足洛伦兹曲线的条件。
为节约空间,表中残差平方和使用了所谓科学计数法表示,例如1.4897E-5表示1.489710。
可见用(10)式进行拟合时,残
-6差平方和大约是(9)式的1/10,(10)式残差的数量级达到了10,这种误差基本上可以忽略。
因此,文中基
尼系数的准确程度是比较高的。
最近Chotikapanich等(2007)给出了利用中国统计年鉴上的数据估计我国基尼系数的方法,本文农村与城镇的估算-5结果与该文差别不大,但
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 系数 估算 研究 重点