讲有关分析与回归分析.docx
- 文档编号:27947685
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:21
- 大小:677.46KB
讲有关分析与回归分析.docx
《讲有关分析与回归分析.docx》由会员分享,可在线阅读,更多相关《讲有关分析与回归分析.docx(21页珍藏版)》请在冰豆网上搜索。
讲有关分析与回归分析
第二讲相关分析与回归分析
第一节相关分析
1.1变量的相关性
1.变量的相关性分两种,一种是研究两个变量X与Y的相关性。
本节只研究前者,即两个变量之间的相关性;。
2.两个变量X与Y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。
这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y之间的关系具有无限的可能性,一个比较现实的想法是:
确立一种“样板”关系,然后把X、Y的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标。
3.取什么关系做“样板”关系?
线性关系。
这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。
1.2相关性度量
1.概率论中用相关系数(correlationcoefficient)度量两个变量的相关程度。
为区别以下出现的样本相关系数,有时也把这里定义的相关系数称为总体相关系数。
可见相关系数是判断变量间线性关系的重要指标。
2.样本相关系数
我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。
这个估计称为样本相关系数,或Pearson相关系数。
它能够根据样本观察值计算出两个变量相关系数的估计值。
和总体相关系数一样,如果
,称X和Y不相关。
这时它们没有线性关系。
多数情况下,样本相关系数取区间(1,1)中的一个值。
相关系数的绝对值越大,表明X和Y之间存在的关系越接近线性关系。
1.3相关性检验
两个变量X和Y之间的相关性检验是对原假设
H0:
Corr(X,Y)=0
的显著性进行检验。
检验类型为t。
如果H0显著,则X和Y之间没有线性关系。
1.4计算样本相关系数Correlate\Bivariate
例1数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。
打开Correlate\Bivariate对话框,将变量salary、salbegin、educ和prevexp输入Variables,点击OK,即得表格:
表格中的PearsonCorrelation指样本相关系数,例如起始薪金与受教育年限的相关系数为0.633;Sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为Sig.=0.000,在0.05和0.01的水平下,都能否定它们不相关的假设。
N为观察值个数。
1.5偏相关系数
1.控制变量以上在计算变量X和Y的相关系数时,并没有考虑有其他变量的影响。
例如:
计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此0.890这个数字不完全真实。
如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。
这个被扣除的变量就叫控制变量,这里educ便是控制变量。
控制变量可以不止一个。
2.偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partialcorrelation),计算命令为:
Correlate\Partial.
例2数据data02,计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。
在PartialCorrelations对话框中,将变量salary、salbegin输入Variables,将变量educ输入Controllingfor,然后OK,得:
其中Corrlation指偏相关系数,df自由度,Significance是对原假设H0:
pCorr(X,Y)=0检验结果得到的水平值。
可见:
偏相关系数值等于0.795;不能接受不相关的假设。
第二节线性回归方程
2.1一元线性回归方程
1.相关分析是以线性关系为“样板”,讨论变量X和Y的相关程度,这一程度用相关系数表示。
我们不禁要问:
这个“样板”是什么?
也就是把这个做“样板”的线性表达式:
给出来,这也就相当于把系数b0和b1估计出来。
这样,变量X和Y的关系就可以表示成为:
其中为误差,是一个随机变量。
显然,相关系数绝对值越大,误差在表达式中占的比重就越小,也就是线性部分
占的比重越大,这就有可能用线性表达式
(1)近似表达变量X和Y的关系。
称线性表达式
(1)为变量Y对于X的(一元线性)回归方程。
回归分析的主要任务是回答:
1)回归方程
(1)能否近似代表变量X和Y的关系。
这实际是对线性部分与误差部分各占比重的估量;
2)怎样估计回归方程
(1),也就是怎样估计参数b0和b1。
显然,在任务2)完成前,任务1)无从开始。
2.回归的基本假设
解决回归分析的主要任务还是要从样本:
入手。
套用
(2),样本(3)可以写成:
以下所有分析推导都从(4)出发。
显然,需要用到一些数学方法。
为此提出以下基本假设:
假设1E(i)=0,i=1,2,…,n;
假设2Var(i)=2const,i=1,2,…,n;
假设3Cov(i,j)=0,ij;
假设4i~N(0,2),i=1,2,…,n。
3.回归系数b0、b1的最小二乘估计
这一部分内容实际是估计回归方程。
作为变量X和Y实际关系的近似,自然要求回归方程
(1)计算出的Y值与样本观察值具有最小误差。
即把X代入
(1)计算出的Y值:
与实际观察到的Yi误差最小。
回归系数的估计式。
通过它,可以完全确定回归方程。
4.回归方程的评价
确定了回归方程后,一个重要问题浮出水面:
这个回归方程有多大的代表性?
能否投入使用?
1)平方和分解公式公式中的三个平方和分别叫做:
总平方和(total)
残差平方和(Residual)
回归平方和(Regression)
于是(9)式也可以写成:
ST=SE+SR。
设就是平方和分解公式。
平方和分解公式指出一个事实:
残差平方和SE与回归平方和SR之和是一个常量,而残差平方和SE越大,表明回归方程跟样本观察值拟合得越差,反之则越好。
但从回归平方和SR看,则正好相反,即:
SR越大,回归方程跟样本观察值拟合得越好。
2)判决系数与复相关系数
定义回归平方和SR与平方总和ST的比值称为回归方程的判决系数,用R2表示判决系数,则有:
判决系数的算术平方根
称为回归方程的复相关系数。
显然:
。
判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。
判决系数也回答了
(2)中线性部分
所占比重的问题。
3)回归方程的显著性检验
原假设H0:
b1=0(回归方程不显著)
检验统计量:
在给定检验的显著性水平0(例如0.05)后,如果计算得统计量F对应得水平值Sig.<0,则拒绝接受H0,这时称原假设H0不显著,也就是回归方程显著,这就意味着:
接受回归方程近似代表变量Y和X的关系。
5.回归分析命令Regression\Linear
例3数据data04,计算身高(high)与体重(weight)的相关系数,并以身高为自变量,体重为因变量求线性回归方程,同时计算判决系数、检验回归方程的显著性(取检验水平0=0.05)。
打开LinearRgression对话框,将因变量体重(weight)输入Dependent,将变量身高(high)输入Independent,点击OK,得输出文件表格系列:
该表格是变量进入或移出回归方程的记录,它指出:
进入方程的变量是high,没有变量移出方程,使用的方法为Enter(在回归方程的优化一节中会讨论)。
两个注是:
a.所有提供的自变量都进入方程。
b.因变量是weight。
模型概况表格。
其中RSquare是判决系数,R是复相关系数,AdjustedRSquare是校正的判决系数(容以后介绍)。
注a.预测元素为:
(常数),high。
即回归方程等号右端是这两部分组成。
方差分析表。
这部分做回归方程的显著性检验,原假设H0:
回归方程不显著。
表中SumofSquare一列:
Regression是回归平方和,Residual是残差平方和,Total是总平方和。
df是相应的自由度,MeanSquare为对应均方和,它的定义是:
MeanSqare=SumofSquaredf
F是统计量的值,
F=RegressionMeanSquareResidualMeanSquare
最后的Sig.是F值对应的显著性。
由于Sig.=0.000<0.05,故原假设H0为不显著,即回归方程显著。
最后一个表格是系数表:
其中UnstandardCoefficients(非标准化系数)给出回归方程的常数项(Constant)与变量high的系数,它们在B列中显示。
因此,回归方程是:
2.2多元线性回归方程
1.模型在变量Y和变量X1,X2,…,Xp,(p≥2)之间建立关系:
其中为随机变量,表示误差。
线性部分
对于(X1,X2,…,Xp,Y)的一个容量为n的观察值
应有
对(14)中的随机误差i有与一元线性回归相同的假设。
称(12)为变量Y对于变量X1,X2,…,Xp的p元线性回归方程。
它的基本问题和一元线性回归方程相同,也是:
回归方程如何估计;回归方程能否近似代表原变量的实际关系。
2.回归系数的估计
引入以下向量:
,
,
则(14)可以表示为矩阵形式:
残差平方和:
将其对
求导数:
如果矩阵
可逆,解得:
这就是参数
的最小二乘估计。
3.回归方程的显著性检验
原假设:
H0:
b1=b2==bp=0(回归方程不显著)
检验统计量:
其中SR、SE定义同一元回归。
4.回归系数的显著性检验
多元线性回归分析也有有别于一元线性回归的特殊问题,回归系数的显著性即是其一。
1)偏回归平方和
2)回归系数的显著性检验
原假设H0:
bj=0(自变量Xj不显著)
备选假设H0:
bj0(自变量Xj显著)
检验统计量
它等价于统计量
其中:
。
5.关于校正的判决系数(AdjustedRSquare)
由于判决系数R2的值会随自变量个数增加而变大,因此它不能正确反映方程的拟合效果。
校正判决系数旨在消除这种影响。
它定义为:
2.3利用回归方程做预测
回归方程用途的主要部分是可以用它来做预测。
1.所谓回归方程的预测,就是在给定点
利用回归方程对变量Y作出估计。
这是一个典型的点估计问题,估计量就是回归方程。
2.从估计的角度出发,回归方程的预测除点估计外,还有区间估计,即估计变量Y的置信区间。
例4数据data05,求变量Y对于变量X1,X2,X3,X4的4元非标准化线性回归方程,并做显著性检验(水平取0.05),同时利用所得回归方程预测no=14的Y值。
在LinearRegression对话框中:
将因变量Y输入Dependent,将自变量X1,X2,X3,X4输入Independent(s),将no输入SelectionVariable并点击Rule,在菜单中选择notequalto并填入14。
返回,点击Save,在Save对话框中选择PredictedValues中的Unstandardized和PredictionIntervals中的Individual,填入需要的置信度。
返回,OK。
从表中可知,回归方程是:
在0.05的显著性水平下,自变量都不显著。
此表显示,在0.05的显著性水平下,回归方程显著。
进一步还能得到判决系数为0.982,校正判决系数为0.974,复相关系数为0.991。
关于no=14观察值的Y预测值在原始数据文件中生成的新变量PRE1中,为94.19281,95%置信区间的左、右端点分别由新变量LICI1和UICI1给出,由是知为(69.87367,118.51195)。
例5数据data05,求变量X1的偏回归平方和。
在例4中,ANOVA表给出回归平方和是2667.899,按照偏回归平方和的定义,求Y对于X2,X3,X4的回归方程,此时ANOVA表格
显示回归平方和为2641.949,故变量X1的偏回归平方和等于
SR(X1)=2667.8992641.949=25.95
也就是方程中少了自变量X1,回归平方和就要损失25.95。
2.4回归方程的优化
本节讨论在给定的显著性水平下,建立一个所有自变量都显著的回归方程的不同方法。
为区别以下的方法,称上一节讨论的建立回归方程的方法为强制进入法(Enter方法)。
1.前进法(Forward)
第一步建立p个一元线性回归方程:
在通过显著性检验的回归方程中,选择F值最大者留下,不妨设这个方程就是:
第二步用入选的自变量X1与其余p1个自变量生成p1个搭配:
X1,Xj,j=2,…,p,求出p1个回归方程:
再从显著的方程中,选择X2最显著的方程留下。
以下的步骤与以上相同,直到剩下的自变量中没有一个显著为止,最后的方程即所求。
例6数据data05,用前进法求回归方程。
做法同例2,只是在LinearRegression对话框的Mathod一栏将Enter改变为Forward。
此表显示:
进入变量检验的临界概率为0.05,即显著水平大于此值的变量都要出局。
在此标准下,X4首选入方程,X1次选入方程,其他变量落选。
此表显示:
第一个方程(自变量只有X4)的判决系数为0.645,而第二个方程(自变量为X4和X1)的判决系数为0.967,有了很大的提升。
此表显示:
第一、第二两个回归方程都显著。
此表显示:
第一个方程是
,方程中没有不显著变量;第二个方程是
,方程中也没有不显著变量。
此表显示每次筛选中未进入方程的变量。
注意未进入第二个方程的变量X2和X3,它们的Sig.值分别是0.052和0.070,均大于临界概率0.05,这就是它们被淘汰的原因。
2.退后法(Backward)
做法与前进法相反。
即第一步将所有的p个自变量都进入方程,从第二步开始,每一步都将方程中最不显著的自变量剔除,直到方程中没有不显著的自变量为止。
例7数据data05,用后退法求回归方程。
打开LinearRegression对话框,Method一栏改为Backward,其他一切做法照旧。
点击OK,得输出:
此表显示:
剔除变量的临界概率为0.100,第一个方程按照后退法应该把所有自变量都进入方程,所以Model1显示X4,X3,X1,X2全都进入方程,注意这时Method显示的是Enter而非Backward,想一想这是为什么。
第二个方程也就是Model2把X3剔除出去,这时Method显示Backward。
第三个方程即Model3又把X4剔除出去,以后没有剔除动作,这Model3就是最终结果。
这张表格无需多做解释。
提醒读者,从中可以看到随自变量个数增加,判决系数确有增大的趋势。
这张表也无需多做解释,它指出三个模型都显著。
这是被剔除变量的清单。
Model2中变量X3被剔除理由是它的Sig.值为0.896,远大于临界值0.100,并且是所有Sig.值大于临界值的变量中最大的一个。
类似解释Model2。
这是三个回归方程的清单:
模型1方程为
按系统给的0.100的检验水平,除X1显著外,其余自变量均不显著,而且Sig.最大者为X3达到0.896,故剔除X3,重新回归,得模型2,方程为
自变量X4不显著,剔除之,重新回归,得模型3,方程为
此方程中已经没有不显著自变量。
3.逐步回归法(Stepwise)
前进法中,每一步向方程内引入一个最显著的自变量。
由于新变量的引入,回归方程中原有的自变量的显著水平会发生相应的变化,有的变量原来是显著的,现在成为不显著。
对于每一步可能产生的新的不显著变量,前进法没有提出如何处理,而是让它们继续留在回归方程内。
换句话说,变量一旦进入方程,就不会被剔除出方程。
逐步回归法就是针对这一缺点,在每一步,不仅引入一个最显著的变量,还把已经存在于方程内的变得不显著的自变量,剔除掉最不显著的那个。
如此直到方程中没有不显著的自变量为止。
2.5回归方程的诊断
1.共线性(Collinearity)诊断
1)共线性的含义p
(2)元线性回归方程
中,如果自变量X1,X2,…,Xp也构成一个显著的线性模型。
换言之:
存在一个自变量,不妨设它是X1,如果用X1作因变量,对于剩下的自变量X2,…,Xp构成一个显著的p-1元线性回归方程:
(2)变量Xj的容限(Tolerance)
设
是以自变量Xj为因变量,与其他p-1个自变量构成的p-1元线性回归方程的判决系数,称
为变量Xj的容限。
它是判断回归方程共线性的重要指标。
显然有:
,并且:
Tol(Xj)的值越小,自变量Xj的共线性越显著。
2.残差独立性判断
1)残差
残差(Residual)指实际观察值与预测值之差:
残差向量:
(1)残差的均值为零,即有:
。
(2)残差的协方差矩阵
2)Durbin-Watson统计量
当n充分大时,
,其中的
是残差序列的一阶自相关系数的估计。
可见此时的d值约在区间[0,4]之内,而当d=2时,可判定残差序列独立。
附录:
二阶段最小二乘法(Two-stageLeast-squares)
一.自变量与因变量互为影响
最小二乘估计适用于自变量单向影响因变量。
但在许多经济学问题中,出现自变量和因变量双向影响的现象。
例如:
价格与需求;
工资水平与工作表现;
收入水平与受教育程度。
以下是一个实例:
研究收入(LW)与受教育水平(Educ)、种族(Black,是否黑人)、年龄(Age)的线性回归方程。
有:
此外,一个不争的事实是:
受教育水平(Educ)也受收入(LW)的影响。
解决的办法是另外寻找一些与受教育水平(Educ)和收入(LW)只有单向影响的自变量,用以预测受教育水平,这个预测模型是:
用Educ的预测值代入原回归模型,进行估计。
二.二阶段最小二乘法
Regression\2-StageLeastSquares
Dependent因变量:
LW
Explanatory解释变量(原回归方程的自变量):
Educ,Black,Age
Instrument工具变量(预测方程的自变量):
Fed,Med,Black,Age
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 有关 分析 回归