国家统计局公布的基尼系数受到了一定的质疑Word格式.docx
- 文档编号:20743777
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:14
- 大小:70.17KB
国家统计局公布的基尼系数受到了一定的质疑Word格式.docx
《国家统计局公布的基尼系数受到了一定的质疑Word格式.docx》由会员分享,可在线阅读,更多相关《国家统计局公布的基尼系数受到了一定的质疑Word格式.docx(14页珍藏版)》请在冰豆网上搜索。
当然这个问题更加困惑着国内的统计人员和研究人员,因为中国的问题比其他国家更为复杂和严重。
为了纠正城镇高收入样本的偏差问题,虽然统计部门和民间研究人员做出了一些努力,但是结果并不令人满意。
为什么高收入人群的收入难以调查清楚呢?
我们知道,高收入群体的收入分为两类,一类为合法收入,一类为非法收入,包括灰色的、黑色的、黄色的、白色的等等。
对于合法收入,虽然也存在低报的问题,但是通过其他的信息(如其财产和经营方面的信息)还可以对其做出一个大体的估计。
而对于非法收入,统计部门和调查机构往往是无能为力,也许要借助于司法部门才能搞清楚。
而很多对统计局基尼系数质疑所援引的根据是频繁而又数额巨大腐败案的出现。
如果说统计局的基尼系数没有反映非法收入,这种质疑是有道理的。
但是这里的问题是,让统计部门去收集贪官收贿和其他各类非法收入确实是勉为其难了。
笔者记得曾在一次研讨会上向统计部门建议应该解决非法收入的统计问题。
一位长年从事统计工作的参会者半开玩笑地说:
“统计贪官收入可不是统计局的事,那是中纪委的事。
”实际上,即使是中纪委和司法部门对那些隐藏的,没有暴露的腐败分子的非法收入也搞不清楚。
为了修正高收入人群样本偏低的问题,这次国家统计局在估计基尼系数时使用了国家税务总局年所得12万以上纳税人个人所得税自行纳税申报信息。
这说明此次公布的基尼系数已经对高收入进行了部分调整。
当然这部分人的收入基本上属于合法的高收入,它在多大程度上能够反映高收入人群收入水平还有待于进一步考证,这不仅依赖于把这部分样本纳入基尼系数计算时的操作细节,更重要的是取决于国税局掌握的年收入12万元以上纳税人的信息对我国高收入人群的整体收入状况是否具有代表性。
总之,尽管统计局住户调查数据仍然存在一定的缺陷,也带来了基尼系数估计的偏差(尤其是低估),但是,与其他住户调查数据相比,无论是在样本的代表性方面,还是在收入指标的测量上,统计局住户调查都具有明显的优势,因此得到的基尼系数相对更可信。
从基尼系数变化趋势来看,此次统计局公布的数据显示,全国居民收入不平等在2008年之前处于上升的趋势,之后转升为降。
如上所述,这一点也是引发质疑之处。
对此,我们也是持谨慎态度。
当然,2009年以来出现了各种各样的有利于收入差距缩小的因素,也出现了导致收入差距扩大的因素。
对这两类因素相互作用的结果有待于进一步的测算和研究。
从缩小的因素来说,常规调查中城乡之间收入差距的缩小是重要的一个因素。
城乡收入倍数(即城镇人均可支配收入与农村人均可支配收入的比率)从2003年开始出现新一轮上升,直到2009年达到3.33,之后开始缓慢下降,具体数值为2010年的3.23、2011年的3.13以及2012年的3.10。
我国城乡分割以及城乡收入差距是全国居民收入差距的最大组成部分,根据我们测算结果,全国居民收入差距的40%~50%是由城乡收入差距带来的,因此城乡差距的缩小是近年来全国居民收入差距缩小的主要推力。
城乡收入差距的缩小,意味着农村居民收入增长超过城镇居民。
近年来农民收入快速增长的源泉主要有农产品价格上升、政府对农村社会保障投入力度的加大、以及劳动力市场中农民工工资的上升。
这些都是有可靠数据支撑的。
当然,如果房价上涨,垄断行业收入的过快上升等一系列推动收入差距扩大的因素没有体现在住户调查数据中的话,那么现在估计出来的收入差距的变动趋势就会有偏差。
2.国家统计局的基尼系数与西南财大基尼系数的比较
人们在质疑统计局基尼系数时援引的证据之一是此前西南财大公布的基尼系数。
上个月(2012年12月)西南财大中国家庭金融调查中心根据其住户调查计算并公布中国居民基尼系数,数值为0.61。
这一估计值是迄今为止根据住户调查数据得到的中国居民收入基尼系数的最高估计值。
这个超高的基尼系数正好迎合了人们对我国收入差距过大,以及腐败现象盛行的不满情绪,因而得到社会各界的普遍关注。
但是,西南财大基尼系数的可信度究竟如何呢?
简单地说,这个基尼系数被大大高估了。
该基尼系数估计所基于的住户调查,无论在样本抽样上,还是在住户收入的收集上,都存在明显的缺陷。
在抽样上,除了样本量过小(全国8000户),抽样误差较大之外,样本抽样过程存在明显的偏重。
具体地说,县市样本主要集中在东部,村/居委会样本明显偏重落后地区的村委会和发达地区的居委会,由此严重地忽略了处于中等收入水平的村/居委会样本(落后地区的居委会和发达地区的村样本)。
住户样本的选择给予高房价居委会以更大的权重,与此同时低估了农村住户的样本。
在收入信息收集上,仔细观察调查问卷显示,该调查仅仅收集了每户受访者及其配偶的收入,而没有收集家庭其他从业人员的收入。
不仅如此,在收集计算农业生产经营和非农生产经营收入所需信息上,问卷也存在明显的缺陷。
根据问卷收集的相关信息,很难准确地计算农户自产自用农产品收入以及非农经营收入。
正是由于样本偏差和收入指标统计上的问题,让该调查对很多家庭给出了不现实的低收入,居民收入差距(0.61的基尼系数)被高估的原因之一也在于此。
(关于西南财大基尼系数问题的详细讨论,参见长溪岭,2012;
李实,2012;
罗楚亮,2012;
岳希明,2012)[1]
值得提及的是,西南财大0.61的基尼系数并不是由于解决了上述国家统计局高收入样本缺失以及非法收入统计问题之后得到的。
西南财大的住户调查并没有解决统计局住户调查中存在的问题。
相反,无论在样本抽样上,还是收入指标的取得上,西南财大的住户调查都存在明显的缺陷,因此其基尼系数不足以作为衡量统计局基尼系数偏差的证据。
相反,由于统计局农村样本和农户收入统计的相对可信性,统计局住户调查结果倒可以用来衡量西南财大基尼系数是否存在偏差。
具体结果是,2010年农村居民收入基尼系数,统计局的估计是0.378,而西南财大的估计是0.60。
3.我们的基本结论
统计局此次公布的全国居民收入基尼系数基本是可以接受的,是可信的。
当然,这并不是说统计局此次公布的基尼系数是完全准确的。
在接受这些估计结果时,我们同时认识到其局限性。
首先,统计局的基尼系数没有反映各种各样的非法收入。
很显然,不能把非法收入纳入基尼系数估计显然低估了我国居民收入差距。
至于能否期待统计局解决非法收入统计问题,是一个见仁见智的问题,对此我们没有抱太大的期待。
其次,即使抛开非法收入不谈,基本接受统计局基尼系数并不意味着我国全国基尼系数在2012年一定是统计局公布的0.474。
数据收集工作的进一步完善和估计方法的不断改善都有可能使得现在公布的基尼系数出现上下2到3个百分点(即0.444~0.504)的波动。
这实属正常,但并不因此改变我们的基本判断。
国家统计局此次公布全国居民收入基尼系数是一次新的尝试,希望以后能变成一种常规工作。
但是由于“历史欠账”太多,在取得绝大多数人认可之前,统计局要做的事情还有很多。
最重要的是,应当对此基尼系数的估算过程给出详细的解释,也有必要公开原始调查数据,允许民间研究机构对数据的可靠性进行验证,否则公众的质疑无法消除。
从研究过程来看,基尼系数只是一个数,但取得该数背后的过程是极其复杂的,对估计结果加以详细说明是完全必要的。
从社会公众的反应来看,基尼系数不仅是一个数,它被倾注了更多理性的,非理性的主观情绪,也有“历史的记忆”。
作为理性的研究者来看,这次社会公众对国家统计局公布的基尼系数强烈质疑的现象应该引发我们更多的思考。
问题的本质不在于这个数字本身的准确性,而在这个数字之外,因而统计制度的改革是必须的。
自西南财经大学中国家庭金融调查与研究中心(CHFS)发布《中国收入不均报告》以来,受到社会各界关注,也听到不同声音。
CHFS从一开始就秉持公开透明的原则,在多场合多次详细介绍其调查设计和实施过程,欢迎一切基于事实、有理有据的质疑,并针对质疑给予积极客观的回复。
但是,《我们更应该相信谁的基尼系数?
》一文(以下简称《我》文)作者没有很好地了解中国家庭金融调查的实施过程,对我们的基尼系数存在明显缺陷的结论是完全站不住脚的。
其质疑主要集中在抽样方案设计是否合理,以及住户收入收集是否准确两个方面。
对此,我们做出如下说明。
关于抽样设计的说明
CHFS抽样方案设计和调查实施经过了充分讨论和科学论证。
《我》文对CHFS的抽样设计和实施的理解并不准确,导致其文中所描述的问题很大程度上是错误的。
《我》文认为CHFS抽样方案中的8438户的样本量太小,存在较大的抽样误差,同时判断“县市样本主要集中在东部,村/居委会样本明显偏重落后地区的村委会和发达地区的居委会”。
这显然是一种主观臆断。
首先,为了保证受访户的隐私和私人信息,我们并没有公开受访户的个人信息,甚至其所属的县市都没有公开。
《我》文所描述的样本存在偏差的依据不知是从何而来。
其次,虽然CHFS抽取出县市样本中东部样本比重较总体高,但是“村委会偏重于落后地区,忽略中等收入的地区”的说法显然是错误的。
很难想象作者是如何从样本的东、中、西分布中得到这样的结论的。
最后,根据CHFS的研究目的,我们在抽样设计中希望多抽取富裕地区和富裕家庭,这肯定会造成样本中富裕地区和富裕家庭的比重相对较大。
但是,在推断总体时,我们针对抽样设计进行了权重的调整,由此得到的结论不存在因为抽样设计造成的偏差。
这是抽样设计和调查实施的基本常识,是世界上所有抽样调查统计中常用的办法,不知《我》文作者为何有此质疑?
8438户的样本量是否能很好地反映总体情况是一个统计学基础问题,在我们之前对不同质疑的回复中已经多次提及。
在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。
如果用8438户来推断总体均值,抽样误差约是总体标准差的1%,已经可以比较精确地推断总体。
我们的抽样严格按照随机抽样过程进行设计,调查实施过程也严格按照随机抽样原则更换样本。
样本量的数量大小并不能作为衡量一个调查准确与否的依据,这一点从国内外的其他调查就能看出。
例如CGSS(中国综合社会调查)2006年的样本量约为10000户,SCF(美国消费金融调查)2007年之前25年的样本量为4000户,PSID(美国收入动态跟踪调查)2005年的样本量为5000户。
我们认为,在合理、随机的抽样方案设计和严格的调查实施过程下,8000多户样本完全能够准确反映全国的总体水平。
《我》文中提到:
“住户样本的选择给予高房价居委会更大的权重,同时低估的农村住户的样本”。
这样的论断完全混淆了样本分配和权重的概念。
在城市地区,CHFS收集了各社区的平均住房价格信息,以此作为社区富裕程度的衡量指标。
在此基础上,根据住房价格由高到低将各社区分成四个组,在住房价格最高的组分配50户样本;
而在住房价格最低的组分配25个样本。
对于富裕社区多分配样本,并不是给予富裕社区更大权重,而是为了保证以更大的可能性获得高收入的样本,进而能够更加准确的反映家庭收入与财富的分布。
与《我》文的理解相反,我们在计算相关指标时,都根据抽样设计进行了权重调整。
这一权重是根据抽样设计中,每户家庭被抽取的概率进行计算的。
换言之,抽样时多投放富裕家庭样本,在计算中富裕家庭的相对重要性就减少,其所代表的家庭户数也就相应低于其他收入层次的家庭。
以此类推,每个收入层次的家庭都有对应的权重,反映了其能够代表的全国家庭数量。
正是通过这一调整,我们能更准确的从样本推断总体的信息,这也是抽样调查的基本常识。
在完全随机抽样下,由于富裕家庭的比例很低,其被抽中的概率也很低。
可以想象,如果数据中没有包含富裕家庭样本,是无论如何也不能正确反映总体的。
但是采取了偏向富裕家庭的样本分配,就能够保证样本中包含相当部分富裕家庭,进而可以通过权重的调整来反映总体的实际情况。
关于收入数据准确与否?
《我》文中,关于CHFS收入数据存在明显缺陷的说法也是站不住脚的。
CHFS数据全面地收集了受访家庭的每一项收入,包含所有家庭成员全年的税后现金收入和实物收入。
具体包括五部分:
工资薪金收入、农业生产净收入、工商业生产经营净收入、投资性收入和转移性收入。
CHFS关于受访家庭的收入信息是非常细致而准确的。
首先,在2011年的调查访问中,由于CHFS调查问卷较长,出于调查时间成本和数据质量的考虑,CHFS只询问了受访者(最了解家庭财务信息的成员)及其配偶的收入信息。
但在随后进行的短问卷季度回访中,CHFS补充询问了受访家庭所有家庭成员的工资薪金收入及家庭总收入,并据此对2011年调查访问的收入数据进行了校准。
通过与季度回访问卷数据的比较和校准,我们有充分的理由相信,CHFS关于家庭收入的数据是可靠的。
据此计算得到的城镇居民人均工资薪金收入为1.08万,略低于国家统计局公布的城镇居民人均工资薪金收入1.37万。
其次,关于CHFS数据很难准确计算“农户自产自用农产品收入以及非农经营收入”的说法是没有依据的。
CHFS调查很明确地询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入。
在工商业生产经营项目部分,问卷明确询问了受访家庭在上一年的项目净利润,以及受访家庭在这些工商业生产经营项目中所占的份额,并据此计算受访家庭的工商业生产经营项目净收入。
根据CHFS数据推算,2011年全国拥有工商业生产经营项目的家庭总数约为5840万,这与国家工商行政管理总局公布的“企业与个体工商户总数”5010万相当接近。
所以,我们有理由相信,在工商业生产经营收入的调查上,CHFS数据也是非常可靠的。
最后,我们有充分的证据表明,CHFS高素质高学历的访员以他们尽职尽责、具有创造力的的出色工作打动了受访者,得到了受访户的积极配合。
CHFS的收入数据,特别是高收入家庭的收入,是相对可靠的。
此外,CHFS在农村地区的拒访率仅3.2%,配合程度相当高。
因此更没有理由怀疑农村家庭收入数据的准确性。
记账数据比一次性回忆数据更加准确?
《我》文提到,“国家统计局通过日记账方式收集样本户收入和支出信息,比西南财大采取的一次性回忆的数据收集方法更为准确。
”这种说法毫无事实根据。
从收入指标统计的全面性和准确性上看,国家统计局的日记账数据收集方式与CHFS的回忆式问卷数据收集方式孰好孰坏并无定论,也没有研究对二者的优劣进行系统论证。
相反,在调查和统计领域中,回忆性数据收集方法是主流,而日记账的方式很少采用的原因除了成本问题外,还在于日记账方式存在如下缺陷:
第一,记账式调查的拒访率高,引起很大的样本偏差。
年轻家庭和高收入家庭群体的自我保护意识较强,不愿接受或没时间进行日记账调查的比例非常高。
同样,干部家庭、私营企业主等收入信息隐密性较强的家庭,更是难以接受日记账式的调查。
此外,也很难想象高收入家庭会很好的配合日记账的调查方式。
因此,以日记账为调查方式的住户调查往往将高收入群体排除在外,其样本代表性存在很大的问题。
第二,对记账指标的理解不一致会造成较大的数据偏差。
由于日记账的方式没有访员在现场对指标进行讲解和梳理,也没有计算机系统对前后不一致的信息进行自动提示,因此受访者很容易出现理解偏差,进而引起指标的不准确。
而对于文化程度较低的农村居民,该现象会更为严重。
第三,日记账的数据缺乏监督机制,更容易产生数据错报。
由于记账指标繁杂且记账时间较长,受访户往往由于记账负担过重而少报或胡乱报,严重影响数据收集的质量。
而在CHFS采用的回忆式调查中,日记账式存在的上述问题都能够在一定程度上得以控制:
一方面,CHFS访员具有熟练的入户技巧和坚持不懈的精神,CHFS的拒访率,尤其是城市拒访率相当低,抽样的随机性在较大程度上得以保持;
另一方面,CHFS的访员经过了严格的访问技巧培训,具有熟练的访问技巧和认真负责的访问态度,能够将非抽样误差降尽可能降低,从保证数据质量。
事实上,国内外绝大部分主流调研都采取了回忆式的数据收集方式。
以美国为例,消费者金融数据调查(SCF)和消费者消费情况调查(CEX)以及有追踪调查“标杆”的美国收入动态跟踪调查(PSID),均采用了回忆式数据收集方式。
而中国的大部分社会调查,如中国家庭动态跟踪调查(CFPS)、中国综合社会调查(CGSS)和中国健康与养老跟踪调查(CHARLS)同样采用了回忆式的数据收集方式。
与上述国内外颇具影响力的大型社会调查相似,CHFS选用了回忆式数据收集方式收集样本户收入和支出信息,从而确保得到更准确更具代表性的数据。
《我》文针对回忆式数据收集方式的质疑恰恰反应了其对调查方法的片面理解。
CHFS数据没有高估基尼系数
根据CHFS数据,家庭年可支配收入超过55.9万,则位居前1%;
超过17.5万,则位居前5%;
超过10.7万,则位居前10%。
我们认为这样的收入分布大致反应了中国社会收入的真实情况,CHFS数据并未高估基尼系数。
《我》文作者也应该公布自己认为的更为合理的收入分布,供社会各界比较与讨论。
我们高兴地看到国家统计局时隔多年再次发布基尼系数。
国家统计局马建堂局长最近指出:
“规范的民间调查,应该是官方统计的重要的、有益的补充。
”我们认为,如果真到要做到这点,统计局也应该公开其调查过程与原始数据,便于比较与补充。
在发达国家,既有官方的统计,更有几百家规范的民间调查。
绝大多数抽样调查,虽然各有侧重,但大都公开其调查过程和原始数据,互为印证、互为补充,以期能全面把握真实的情况。
中国家庭金融调查在中国家庭资产的调查上填补了空白。
国内还有其他少数几家机构在进行类似但各有侧重的全国性抽样调查。
我们真诚地希望更多机构加入这个行列,以公开和科学的抽样调查来揭示多样而又飞速变化的中国。
今年1月24日华尔街日报中文网站刊登了我们题为《我们更应该相信谁的基尼系数?
》文章,其中我们比较了国家统计局最新发布的基尼系数和西南财大住户调查项目(以下简称西财项目)公布的基尼系数,并得出国家统计局的数值较西南财大更可信的结论。
与此同时,我们对西南财大住户调查的抽样和问卷中收入指标存在的问题提出了质疑。
对此,甘犁教授两天后在同一网站上发表了《以公开科学的抽样调查揭示真实的中国》一文(以下简称“真实”),以回应我们的质疑。
遗憾地是,“真实”并没有很好地回答我们大部分的质疑。
有幸地是,西南财大住户调查数据已经对外公开,我们利用该数据对一些相关指标进行了再计算,并以此为基础对西南财大住户调查项目公布的基尼系数再质疑。
1.有关抽样和权重问题
“真实”提到通过使用加权的方法来调整样本偏差的问题,我们并不认为有关权重问题就会得到解决。
众所周知,我国的城乡收入差距是非常明显,因此在估算全国收入不平等指数时,样本的城乡分布应当与全国人口的城乡比重相一致。
根据西财项目提供的抽样权重变量(我们假定该权重为家庭权重,下同。
)计算出城市和农村的比重为54%和46%。
这一比重与2010年人口普查给出的城乡家庭分布和城乡人口分布均有一定的偏差。
(根据2010年第六次人口普查数据计算,城镇和农村的家庭分布比重为51.6%和48.5%,人口分布分别是50.3%和49.7%)。
根据西财项目的抽样文件,我们质疑该调查“县市样本主要集中在东部,村/居委会样本明显偏重落后地区的村委会和发达地区的居委会”。
对此,甘犁教授好像没有理解。
关于市县样本偏向东部地区的偏差,从《CHFS抽样调查设计说明》来看是非常清楚的。
具体地说,该调查80个样本市县中,东部地区占40%,而全国2585个市县中东部比重仅仅为34.3%。
不仅如此,根据西财项目住户数据中给出的抽样权重变量计算,东、中、西部地区的样本户比重为53%、25%和22%,而六普数据显示在东、中、西部地区的家庭户比重分别为36.5%、36.5%和27.0%。
二者之间的很大差别表明了西财项目抽样的明显偏差,这也是我们质疑其数据可信性的理由之一。
我们关于“村/居委会样本明显偏重落后地区的村委会和发达地区的居委会”的质疑,是从西财项目的抽样说明中得出的推论。
在第一阶段抽样上,把80个样本市县按非农人口比重五等分组的基础之上,对其中的最低组仅抽取村委会,而没有抽取居委会。
相反从最高组中仅抽取居委会,而没有抽取村委会。
换句话说,这样的抽样实际上是在非农人口比重最高的16县(=80县*20%)中仅抽取城市住户样本,相反在非农人口比重最低的16县中只抽取农村住户样本,这不仅会导致抽样偏差,更严重的是这种偏差无法通过调整权重给予纠正,原因是这两类住户的样本不存在。
不仅如此,这样的抽样偏差会导致两个后果。
其一,非农人口比重较高县的农户在农村中应当属于高收入户,缺少这部分样本直接导致农户收入的低估。
相反,非农人口比重较低县的城市家庭在城市中应当属于低收入户,样本中缺少这部分家庭必然高估城市家庭的收入水平。
其二,从城乡总体来看,上述两类住户的收入应当处于中等收入水平,缺少他们将直接导致全国整体收入差距的高估。
需要再次强调的是,由于样本缺少了这两部分家庭,抽样偏差是无法用加权的办法来修正的。
此外,“真实”以小样本的CGSS、SCF以及PSID等住户调查为例,来辩解西财项目小样本量不是问题。
我们也没有认为小样本住户调查本身是不可取的,我们的问题在于它是否在收入分布上具有全国代表性,并由此来估计全国的收入差距的基尼系数。
我们不知道SCF和PSID的数据是否用来计算美国的具有全国代表性的基尼系数,至少CGSS数据的收集者从未主张过其基尼系数具有全国代表性。
从数据的性质来说,PSID(ThePanelStudyo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国家统计局 公布 系数 受到 一定 质疑