第五章 回归分析Word文件下载.docx
- 文档编号:15829698
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:9
- 大小:114.59KB
第五章 回归分析Word文件下载.docx
《第五章 回归分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《第五章 回归分析Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
从平均意义上,Y与X1,X2,…,Xp呈线性关系。
(4)式称为变量Y对于变量X1,X2,…,Xp的线性回归方程,p=1时,称方程是一元的;
p≥2时,称方程是多元的;
b0,b1,…,bp称为回归系数。
2.统计模型的假设
设变量Y与X1,X2,…,Xp之间有关系(3),对(X1,X2,…,Xp,Y)做n次观察,得到容量为n的样本:
(xi1,xi2,…,xip,yi)i=1,2,…,n,(4)式关系,这些样本观察值:
y1=b0+b1x11+b2x12+…+bpx1p+ε1
y2=b0+b1x21+b2x22+…+bpx2p+ε2(5)
yn=b0+b1xn1+b2xn2+…+bpxnp+εn
其中的εi,i=1,2,…,n是随机误差,出于数学上推导的需要,假设:
1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差;
2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;
3)Cov(εiεj)=0,i≠j.由假设1),它等价于随机误差项互相不相关。
3.矩阵表示
以上模型与假设,可以用矩阵表示。
用矩阵表示有利于数学推导以及结果的表示。
记向量Y,b,ε和矩阵X分别为:
Y=(y1,y2,…,yn)ˊb=(b0,b1,…,bp)ˊ
ε=(ε1,ε2,…,εn)ˊ
模型(5)的矩阵表示便是
Y=Xb+ε(6)
假设1)—3)便是
E(ε)=0
Var(ε)=σ2I
其中I是n级单位矩阵。
1.2.回归系数的最小二乘估计
对于回归方程(4),有两个明显的问题要解决:
1)回归系数如何确定?
这基本上是一个参数估计问题;
2)当回归系数估计出结果后,回归方程能在多大程度上代表变量Y与X1,X2,…,Xp的真实关系,也就是所谓回归方程的显著性检验问题。
先解决回归系数的估计问题。
设b=(b0,b1,…,bp)T的估计为
估计值
最小二乘估计应使
最小,据此,经数学推导可得
这就是参数b的最小二乘估计,其中的逆矩阵(XˊX)-1称为信息矩阵,用C=(cij),i,j=0,1,2,…,n表示。
它在以后的估计与检验中经常用到。
1.3.回归方程的显著性检验
1.复相关系数
(1)平方和分解公式
设由样本
得到的回归方程是
由此得到的yi的估计值便是
误差项ε是不可直接观察到的,它只能从yi-yi的估计值中估计出来。
εi称为残差。
(2)复相关系数
称它的算术平方根R为复相关系数(恰好是Pearson相关系数的绝对值)。
这是一个从直观上判断回归方程拟合好坏的尺度,有0≤R≤1,显然R值越大,回归方程拟合越好。
(3)R2的校正值(AdjustedRSquare)
由于多元线性回归方程的复相关系数R有随着自变量个数p增加而增大的趋势,为了准确反映模型的拟合程度,引入校正的判决系数,即R2的校正值。
这是一个更精确的R2估计值,它的计算公式
2.假设检验
回归方程拟合的好坏(也称显著与否)可以进行假设检验。
假设为:
H0:
b1=b2=…=bp=0(意为:
回归方程不显著)
H1:
H0不对
用F检验,统计量为:
其中,p为自变量的个数。
若H0为真,则F~F(p,n-p-1),检验临界域由P(F>fα)=α确定。
1.4.回归系数的显著性检验
1.检验的意义
回归系数的显著性检验的目的是检验自变量对因变量作用的显著程度,从而剔除回归方程中那些对因变量作用不显著的变量,简化回归方程。
2.偏回归平方和
(1)偏回归平方和的意义
3.假设检验
回归系数的显著性检验
1.5.回归方程的诊断
1.共线性(Collinearity)诊断
1)共线性的含义p
(2)元线性回归方程
中,如果自变量X1,X2,…,Xp也构成一个显著的线性模型。
换言之:
存在一个自变量,不妨设它是X1,如果用X1作因变量,对于剩下的自变量X2,…,Xp构成一个显著的p-1元线性回归方程:
2)变量Xj的容限(Tolerance)
设
是以自变量Xj为因变量,与其他p-1个自变量构成的p-1元线性回归方程的判决系数,称
为变量Xj的容限。
它是判断回归方程共线性的重要指标。
显然有:
。
并且:
Tol(Xj)的值越小,自变量Xj的共线性越显著。
2.残差分析
1)残差
残差(Residual)指实际观察值与预测值之差:
(1)残差的均值为零,即有:
(2)残差的协方差矩阵
2)Durbin-Watson统计量
当n充分大时,
,其中的
是残差序列的一阶自相关系数的估计。
可见此时的d值大约在区间[0,4]之内,而当d=2时,可判定残差序列独立。
2.命令Regression初步
2.1.线性回归分析命令使用
1.命令调用Statistics→Regression→Linear
2.LinearRegression对话框的使用
Dependent是因变量框,Independent是自变量框。
在使用的时候,只需要将因变量、自变量输入各自的框中。
Method是方法选择框,包括有Enter(直接进入)、Stepwise(逐步回归)、Remove(移出)、Backward(向后剔除)和Forward(向前剔除)五种建立回归方程的方法。
系统默认的是Enter法。
点击OK按钮,系统将按照直接进入法进行回归分析。
下面详细说明对话框中各部分的功能和使用方法。
【Independent框】:
用于选入回归分析的自变量。
【Method下拉列表】:
用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。
该选项对当前Independent框中的所有变量均有效。
【SelectionVariable框】:
选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。
【CaseLabels框】:
选择一个变量,他的取值将作为每条记录的标签。
最典型的情况是使用记录ID号的变量。
【WLS>
>
钮】:
可利用该按钮进行权重最小二乘法的回归分析。
单击该按钮会扩展当前对话框,出现WLSWeight框,在该框内选入权重变量即可。
【Statistics钮】:
弹出Statistics对话框,用于选择所需要的描述统计量。
【Plot钮】:
弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。
可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。
【Save钮】:
可以存储的有:
预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。
下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。
【Options钮】:
设置回归分析的一些选项
3、利用回归方程进行预测
所谓预测即是对给定的X=x0,利用回归方程求Y的点估计与区间估计。
(1)点估计
(2)区间估计
〖例1〗打开数据文件“多元回归分析例题”,该文件记录了某地区15年的国民收入(百亿元)X1,工业产值(百亿元)X2,农业产值(百亿元)X3,就业人数(百万人)X4,固定资产(百亿元)X5和财政收入(百亿元)Y的年度数据。
试建立Y对X的线性回归方程,并对回归方程及回归系数的显著性进行检验。
调用线性回归命令:
Statistics→Regression→Linear。
出现对话框后,将原变量框中的因变量:
财政收入(Y)输入Dependent,再将自变量:
国民收入、工业产值、农业产值、就业人数及固定资产输入Independent。
原问题没有规定用何种方法,用系统默认方法Enter,最后点击OK按钮,命令被执行,系统输出执行清单Regression。
清单第一部分是拟合过程中变量进入和移出情况表VariablesEntered/Removedb,清单的第二部分模型概况ModelSummary,是拟合模型的情况简报,清单第三部分ANOVA是方差分析表,这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!
清单第四部分Coefficients是有关回归方程的内容(解决对系数的估计)。
给出了包括常数项在内的所有系数的检验结果,用的是t检验,根据这些数据就可以确定所求的线性回归方程,这里是
第二部分是Std.Error,它所列的数据是对应各变量系数估计值的标准差;
第三列StandardizedCoefficient是标准化回归系数,所谓标准化回归方程是对观察数据先进行标准化处理:
然后,用标准化处理过的数据
作回归方程,这样的回归方程称为标准化的回归方程,
它没有常数项,Beta是它的回归系数,因此标准化回归方程是
第四、五列分别是回归系数检验的t值和对应水平值Sig,可见:
在α=0.05的显著性水平下,只有国民收入(Sig=0.009)和农业产值(Sig=0.049)的回归系数显著。
2.2.Method:
选择回归方法命令(回归方程的优化)
对话框LinearRegession中的Method是选择回归方法的命令,它为我们提供了五个建立回归方程的方法:
Enter(也是系统默认的方法);
Stepwise;
Forward;
Backward;
Remove。
以下重点介绍Backword,Forward和Stepwise三种方法。
1.自后淘汰变量法:
Backward
Backward也称自后淘汰变量法、消元法。
它的工作过程是
第一步:
将所有的自变量引入回归方程;
第二步:
对方程中的所有自变量作回归系数的显著性检验,把最不显著的变量从方程中剔除;
第三步:
用未被剔除的所有变量,重新作一个回归方程,重复第二步,一直到方程中包含的变量都显著为止。
〖例2〗数据文件同例1。
用Backward方法建立回归方程。
从结果输出中的Coefficients栏目内容(附后)中可以看到:
在Model1中,最不显著的变量是“工业产值”(Sig=0.996),应该剔除,所以在Model2中就没有“工业产值”变量。
在Model2中,最不显著变量是“固定资产”(Sig=0.168),应于剔除,所以在中便没有“固定资产”变量。
以下类同。
最后的Model4中,所有变量都显著,Backward过程停止。
附表:
〖例2〗输出结果的Coefficients表
2.向前选择变量法:
Forward
Forward方法也称向前选择变量法,它的工作过程是
将自变量中与因变量相关系数绝对值最大的变量引入方程;
在剩下的自变量中,把与因变量偏相关系数(回归方程中已包含的变量做控制变量)最大的变量变引入方程;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 回归分析 第五 回归 分析