回归模型中多重共线性的情形及其处理.docx
- 文档编号:2320086
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:10
- 大小:37.20KB
回归模型中多重共线性的情形及其处理.docx
《回归模型中多重共线性的情形及其处理.docx》由会员分享,可在线阅读,更多相关《回归模型中多重共线性的情形及其处理.docx(10页珍藏版)》请在冰豆网上搜索。
回归模型中多重共线性的情形及其处理
引言
多元回归分析是多变量分析方法中最重要、最基础的分析方法。
在应用时,其前提是假设各自变量间相互独立,即自变量间不存在直线相关关系,或称多元共线性。
如果这一前提不成立,即存在着共线性关系,可使估计系数方差加大,系数估计不稳定,给结果分析带来严重困难。
因此对多元共线性的识别与处理在多元线性回归分析中显得十分重要。
1•多重共线性的数学背景
假设有两个变量Xi和冷,二者高度线性相关,可以近似地表示为:
X1=3禺+2(1.1)
现若变量丫与Xi、X2有回归模型
Y=1+4Xi+3勺
我们可以采用因式分解法把上面模型中的4石分解成两部分的和,这样可以列出若干种分解方法,我们取其中两种,得到下列两种等价的形式:
丫=1+4Xi+3X2=1+Xi+3人+3X2(1.2)
丫=1+4X1+3X2=1+8X1-4X1+3X>(1.3)
将(1.1)式X1=3X>+2分别代入方程(1.2)中的3X1和方程(1.3)中的4人,可以得到以下两个方程:
丫=1+X1+3X1=1+X1+3(3X2+2)+3X>=7+X1+12X2(1.4)
丫=1+8人-4人+3为=1+8人-(3X2+2)+3为=7+8人-9%(1.5)
在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?
成负比例关系,即负相关。
如此看来,同一个方程丫=1+4片+3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1=3为+2式中的X1与为的共线性,X1约相当于3X2,在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人,需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。
从上述分析看来,由于Xi与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。
2•对多重线性关系的初步估计与识别
如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
1增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
2实际经验中认为重要的自变量的回归系数检验不显著。
3回归系数的正负号与理论研究或经验相反。
4在相关矩阵中,自变量的相关系数较大。
5自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识
多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。
多重共线性普遍被认为是数据问题或者说是一种样本现象。
我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
3.1多重共线性是由变量之间的性质引起的
这一认识沿袭了传统经济计量学对多重共线性的认识,而现经济计量学否定了这一认识。
我们认为这种否定还需斟酌。
首先,在完全共线情况下,例如研究消费C与总收入T、工资收入S和非劳动收入N之间的关系,设定模型为:
C=diN2S(3.1)
式中解释变量T=N十S恒成立。
这种共线性的发生与数据取样多少、数据观察有无误差均无关系,因为多重共线性完全是由变量间的性质引起的。
其次,在高度相关的情况下,比如研究税收额y与总产值Xi与增加值X2、税率X3之间的关系,设定模型为:
目二■■-iXi■12X2「3X3•;(3.2)
式中,两个重要的宏观经济总量指标,总产值Xi与增加值X2必定高度相关,因为总产值Xi=cvm,增加值X^Cim,而c=q•c?
(q为
固定资产折旧,C2为原材料转移价值),这时不管数据以什么形式取得,数据取样是大是小,都会出现解释变量Xi与X2高度相关。
因此,变量之间的性质是导致多重共线性的重要原因。
3.2多重共线性是数据问题引起的
这是指即使总体诸解释变量没有线性关系,但在具体样本中仍可能有线性关系。
以下分两种情况加以说明:
情况一,例如当研究只含有两个解释变量Xi与X2共线时,可将Xi对X2
2
回归,如样本可决系数R^x2很大,则认为Xi和X2可能存在严重的多重共线性。
如果样本可决系数RU=i,则认为Xi与X2可能存在完全多重共线性。
之所以说“可能”,因为R2和样本容量n有关,当样本容量很小时,R2容易接近于i。
如同众所周知的当n=2时,两点总能连成一条直线,即R2=i使原本并不存在线性关系的变量Xi与X2,由于样本数据问题产生了共线性。
因此,戈德伯格(Goldberger)构造了微数缺测性〔"的概念与多重共线性概念相对应。
按照戈德伯格所说的,准确的微数缺测性(与完全多重共线性相对应)是指样本大小n等于零的情形,这时任何种类的估计都是不可能的。
近似微数缺测性则如同近似完全多重共线性,指样本数n刚刚超过待
估计参数个数k+l的情形。
情况二,若建模所用的解释变量是时序变量,并且是高价单整时序变量,这种时序解释变量之间几乎肯定会出现谬回归,必然导致多重共线性。
多重共线性与样本数据有关的另一个佐证是进入20世纪80年代后期,人们开始关注单个或几个样本点对多重共线性的影响。
研究表明,存在两类这样的数据点或点群:
其一,导致或加剧多重共线性,其二,掩盖存在着的多重共线性。
这样的数据点被称为多重共线性的影响点。
这是在解释变量不变,样本容量n不变的情况下,讨论个别样本点对多重共线性的影响。
显然,剔除这些多重共线性的影响点,或者可减弱多重共线性的程度,或者可显现多重共线性的存在。
目前诊断多重共线性影响点的方法有两种:
Walker诊断技术和主成分
诊断技术s。
Walker诊断技术的基本思想是:
设x为设计矩阵,对设计矩阵x进行奇异值分解,分解的目的是把一个复杂矩阵正规化,即把一个矩阵特征值中为零和不为零的分解开,这就是奇异值分解法。
设XX的特征根为九」2入叫,定义名k=丄为第k个条件指标值,Xi表示设计矩阵X的第i行,k(i)表示设计矩阵不包含Xi计算的第k个条件指标值,若|呂k-%(i)|,对于k二2,3…,p都成立r为预先给定的值,r■0,则称Xi为多重共线性的影响点。
由于Walker诊断法要进行设计矩阵奇异分解,计算不够方便,因此本文提出了主成分诊断法。
3.3多重共线性是由不适当参数化引起的
Heedry建模法认为,多重共线性是由不适当的参数化引起的。
因此,经过再参数化,将模型进行变换可以消除多重共线性。
再参数化是通过数据变换实现的,即差分变换和微分变换。
以自回归分布滞后模型ADLM为
例:
y^0人必_「2人」;t(3.3)
由于(3.3)式中Xt与X-1为高度相关,°和1的估计可能不会准确。
因此,将(3.3)式有端减加oX-1得:
y^''/":
xrxt-<2人一1」(3.4)
式中二01。
差分变量Xt与水平变量X_1接近不相关。
(3.4)式两端减去yt-i得:
讥‘0订;Xt「1心」t(3.5)
其中,2一1。
对(3.5)式再进行微分变换,即对不同变量相同时间作减法运算得:
7八•0*:
人_「(-」(3.6)
式中=:
二°•<2-1。
(3.6)式变形为误差修正模型:
y='o-:
xr(%_1—dxt_j(3.7)
式中d=^.)^=-(01)/(2-1)。
经过上述差分变换和微分变
换,即再参数化,消除了多重共线性。
不仅如此,(3.7)式中的参数还能得到很好的经济学解释。
由此可见,不适当的参数化可以引起多重共线性。
4•对多重共线性的测定
在讨论这一问题之前,我们需明确这样下面两个问题:
(1)多重共线性是一个程度问题而不是存在与否的问题;
(2)由于多重共线性是在假定解释变量是非随机的条件下出现的问题,因而它是样本的特征,而不是总体的特征。
这样,我们不仅可以“检测多重共线性”,而且还可以测试任何给定样本的多重共线性程度。
但我们并没有多重共线性单一测度方法,因为对于非实验数据,我们无法确定其共线性的性质与程度。
我们所具有的是一些经验法则,即在具体应用中能够给我们提供一些有关多重共线性存在与否的线索。
比如:
(1)R2较高但t值显著的不多。
前已述及,这是多重共线性的经典特征。
如果R2较高,如超过了0.8,在大多数情况下F检验将会拒绝零假设。
但各自的t检验表明,没有或几乎只有部分斜率系数是统计显著不为零的。
(2)解释变量两两高度相关。
例如,如果多元回归方程包括6个解释
变量,计算这些变量两两之间的相关系数,如果有些相关系数很高,比如超过0.8,则可能存在较为严重的共线性。
问题是这一标准并不总是可靠的,因为解释变量两两相关系数可能较低,但却有可能存在共线性,因为t值中
很少是统计显著的。
(3)检验解释变量相互之间的样本相关系数。
假设我们有三个解释变
间的两两相关系数。
假设ri2=0.90,表明Xi与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量
X3为常数的情况下,Xi与X2之间的相关系数。
假定「12,3=0.43,就表明在变量X3保持不变的条件下,X1与X2之间的相关系数仅仅是0.43,但若不考虑X3的影响,两者之间的相关系数却是0.90。
这说明,根据偏相关系数,我们无法断定X1与X2之间具有很高的共线性。
上述讨论表明,在存在多个解释变量的情况下,不能仅仅依赖两两相关系数来判断多重共线性。
偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据,仅仅是检验多重共线性性质的另一个手段。
(4)从属或者辅助回归。
既然多重共线性是指一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。
其中的每一个回归都被称为从属或者辅助回归,从属于Y对所有变量的回归。
例如,考虑Y对X"X2、X3、X4、X5和X6这6个解释变量的回归。
如果回归结果表明存在多重共线性,比如说,R2值很高,但解释变量的系
数很少是统计显著的,其原因,就在于一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,找出这一组合具体方法是:
①作Xi对其
他剩余解释变量的回归,求出拟合优度Ri2;②作X2对其他剩余解释变量的回归,求出拟合优度系数R22;,,,重复上述步骤,直到作出所有的6个
辅助回归。
如何判断哪些解释变量是共线性的呢?
估计的Ri2值介于0和1之间。
如果某个解释变量不是其他变量的线性组合,则该回归方程的Ri2值不会显
著不为零。
根据方程的F值,我们知道应该如何去检验假设:
某个方程的拟合优度显著为零
假定我们想要检验假设:
Ri2=0,也就是Xi与其他5个解释变量不存在共线性。
根据F与R2定义,我们有:
(4.1)
匚R2/(k1)
尸—2
(1-R2)/(n-k)
其中n是观察值的个数,k是包括截距在内的解释变量的个数。
具体说明如下:
在这个例子中,假设有一个容量为50的随机样本,对每个解释变量作剩余变量的回归分析。
各辅助回归的R2值如下:
表4-1检验R2值的显著性
方程
R2值
F值
F值是否显著?
Xi对剩余变量的回归
0.90
79.20
是
X2对剩余变量的回归
0.18
1.9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 模型 多重 线性 情形 及其 处理