SAS讲义十课多元线性回归分析.docx
- 文档编号:1827768
- 上传时间:2022-10-24
- 格式:DOCX
- 页数:35
- 大小:286.17KB
SAS讲义十课多元线性回归分析.docx
《SAS讲义十课多元线性回归分析.docx》由会员分享,可在线阅读,更多相关《SAS讲义十课多元线性回归分析.docx(35页珍藏版)》请在冰豆网上搜索。
SAS讲义十课多元线性回归分析
第三十二课多元线性回归分析
1、多元回归模型表示法
通常,回归模型包括k个变量,即一个因变量和k个自变量(包括常数项)。
由于具有N个方程来概括回归模型
(32.1)
模型的相应矩阵方程表示为:
错误!
未定义书签。
(32.2)
式中
(32.3)
其中:
Y为因变量观察的N列向量,X为自变量观察的N×(k+1)矩阵,为末知参数的(k+1))列向量,为误差观察的N列向量。
在矩阵X表达式中,每一个元素Xij都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。
矩阵X的每一列表示相应的给定变量的N次观察的向量,与截矩有关的所有观察值都等于1。
经典的线性回归模型的假设可以阐述如下:
模型形式由(32.1)给定;
矩阵X的元素都是确定的,X的秩为(k+1),且k小于观察数N;
为正态分布,E()=0和,式中I为N×N单位矩阵。
根据X的秩为(k+1)的假定,可以保证不会出现共线性。
如果出现完全共线性,矩阵X的一列将为其余列的线性组合,而X的秩将小于(k+1)),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。
除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数,以及协方差为0。
假若我们按Y的分布来表示假设(3),则可写成下式:
(32.4)
2、最小二乘法估计
我们的目的是求出一个参数向量使得残差平方和最小,即
(32.5)
式中,
(32.6)
(32.7)
其中表示回归残差的N列向量,而表示Y拟合值的N列向量,表示为估计参数的(k+1)列向量,将式(32.6)和式(32.7)代入式(32.5),则得:
(32.8)
为了确定最小二乘法估计量,我们求ESS对进行微分,并使之等于0,即
(32.9)
所以
(32.10)
被称为“交叉乘积矩阵”的矩阵能够保证逆变换,这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。
最小化的二阶条件是,是一个正定矩阵。
最小二乘法残差有一个有益的特性,即
(32.11)
这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用的。
现在可以考虑最小二乘估计量的性质。
首先可以证明它们是无偏估计量。
因为
(32.12)
设式中,且是常数,这样
(32.13)
根据式(32.13),可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有0均值,则最小二乘法估计量将是无偏的。
(32.14)
我们看到,最小二乘法估计量为线性和无偏估计量。
事实上,为的最佳线性无偏估计量,也就是说它在全部无偏估计量中方差最小,这就是著名的高斯-马尔可夫定理。
为了证明高斯-马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比的方差大。
请注意=AY。
为了不失去一般性,我们可写成:
(32.15)
假如b是无偏的,则
(32.16)
式(32.16)成立的一个必要和充分的条件是,这样就可以研究矩阵。
由于,所以有
(32.17)
由于
因为,所以,即
(32.18)
我们可以看出,为一半正定矩阵。
该矩阵的二次型为0,只有当(所有元素为0)时才出现。
当时,另外的估计量就是普通最小二乘法估计量,这样,我们的定理就得到证明。
3、的估计和t检验
为了计算估计参数的方差-协方差矩阵,我们需要给出的估计量,该估计量自然选为
(32.19)
证明为的一个无偏估计量,虽很单调冗长,但不困难。
因此,是Var()的估计。
当为已知时,可用正态分布假设检验。
当用近似时,我们不得不用t假设检验。
为此,我们利用以下的统计结果:
若已知,则服从分布,具有N-k-1个自由度;
错误!
未定义书签。
服从分布,具有N-k-1个自由度;
错误!
未定义书签。
,当i=0,1,2,…,k时,服从正态分布,平均值为0,方差为,其中vi为的第i个对角线元素;
错误!
未定义书签。
和相互独立。
由此得出:
(32.20)
该式为t分布,具有(N-k-1)个自由度。
这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。
假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的置信区间可由下式得出:
(32.21)
其中为与显著水平有关的t分布临界值。
4、R2和F检验
我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表末说明变差。
为了简化公式推导过程,首先我们假定Y变量具有0平均值,即=0,则有
(32.22)
由于和,所以
(32.23)
式中为总平方和,为回归(已说明)平方和,为残差(未说明)平方和,归纳成回归方差分析表,见表32.1所示。
表32.1回归方差分析表
变异来源
source
离差平方和
SS
自由度
df
均方
MS
F统计量
F
P概率值
P
回归R
P
误差E
总变异T
从而,
(32.24)
若因变量不具有0平均值,我们必须改进一下的定义。
这样,
由此可以得出:
(32.25)
和
(32.26)
注意到一个数学上的事实:
随着模型中增添新的变量,必定会增加,从而只要给模型增添越来越多的新因素,就可能使得人为地增大。
在一元回归时已经指出较大常指模型与数据拟合得较好,在多元回归时很容易错误地去寻找一个极大化的回归模型。
我们应该知道一个好的多元回归模型,应具有合理个数的有意义自变量的简单模型。
为了解决这个问题,提出了修正,使得只有当新增变量确实对因变量有所作用时修正才会增加。
我们定义为修正的,它是校正拟合优度对自由度的依赖关系,如下式如示:
(32.27)
现在就可以考虑对回归系数集的统计检验。
最通常利用的检验是,这个联合假设的检验。
合适的F统计量为:
(32.28)
为分布,具有k和N-k-1自由度。
较大的值,可使我们否定原假设。
5、reg回归过程
在SAS/STAT中有多个进行回归的过程,如reg、glm等,常用于进行一般线性回归模型分析的为reg过程。
1.procreg过程
Reg过程一般由下列语句控制:
procregdata=数据集集名选项列表>;
model因变量=自变量名列选项列表>;
var变量列表;
outputout=数据集名选项列表>;
plot绘图表达式选项列表>;
print关键字列;
weight变量;
freq变量;
by变量;
restrict方程1,方程2,…;
test方程1,方程2,…;
run;
其中model语句是必需要有的,其他语句都是可选的。
2.procreg语句中的<选项列表>。
●outest=SAS数据集——将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。
●outsscp=SAS数据集——要求把平方和及叉积矩阵输出到type=sscp的数据集中。
●all——屏幕输出所有内容。
●usscp——对用在该过程中的所有变量输出平方和及叉积矩阵。
●noprint——不在屏幕输出任何内容。
3.model语句中的<选项列表>。
1)确定变量筛选办法的选择项。
●selection=none|forward|backward|stepwise|maxr|minr|rsquare|cp|adjrsq
依次表示全部变量进入法none、前进法forward、后退法backward、逐步筛选法stepwise(前进法与后退法的结合)、最大R2增量法maxr、最小R2增量法minr、R2选择法rsquare、Mallow'sCp选择法cp、修正R2选择法adjrsq。
2)其他选择项
见表3.2所示是可在model语句中选用的其他选项。
表32.2model语句中的其他选项
acov
xpx
spec
pcorr1
slentry=details
aic
covb
i
stb
pcorr2
slstay=lackfit
sbc
corrb
p
cli
scorr1
start=collin
ss1
mse
r
clm
scorr2
best=collinoint
ss2
sse
b
jp
adjrsq
include=influence
vif
seqb
dw
rmse
gmsep
stop=partial
tol
all
pc
sp
noint
sigma=noprint
bic
其中一些选择项的意义如下:
●acov——存在异方差时,输出参数估计量的渐近协方差阵的估计。
●spec——进行关于方差异性的检验。
●slentry|sle=显著性水平——规定入选变量进人方程的显著性水平。
●slstay|sls=剔除水平——规定从方程中剔除变量的显著性水平。
●include=n——强迫前n个自变量进入模型。
●start=s——以含有model语句中前3个自变量的模型开始,进行比较、选择过程(仅用于maxr或minr方法)。
●stop=s——当找到最佳的s个变量模型之后,逐步回归便停止(仅用于maxr或minr方法)。
●p——要求计算各观测点上因变量的预测值。
●r——作残差分析,同时给出因变量的预测值。
●cli——给出各自变量x0所对应的因变量y0的95%置信上、下限。
●clm——给出各自变量所对应的因变量预测值(均数)Eyi=μi的95%置信上、下限。
●noint——指明回归方程不带截距项(常数项)。
●stb——要求输出标准回归系数。
●covb——要求输出回归系数估计的协方差(阵)估计。
●corrb——要求输出回归系数估计的相关矩阵估计。
●mse——要求输出随机扰动项方差的估计。
●rmse——要求输出。
●collin——在对截距未进行校正的情形下,诊断多重共线性,条件数越大越可能存在共线性。
●collinoint——在对截距进行校正的情形下,诊断多重共线性。
●tol——表示共线性水平的容许值。
对于某个变量容许值定义为1-,其中是由这个变量和模型中所有其他回归变量建立的回归模型所得到的。
tol越小说明其可用别的自变量解释的部分多,自然就越可能与别的自变量存在共线性关系,tol与vif互为倒数。
●vif——输出变量间相关性的方差膨胀系数,vif越大,说明由于共线性的存在,使方差变大。
●influence——要求对异常点进行诊断。
对每一观测点,输出如下表32.3所示统计量:
表32.3诊断异常点的统计量
名称(统计量)
含义
“异常”的判别准则
Leverage(hi)
杠杆率hi,第i次观测自变量的取值在模型中作用的量度(0≤hi≤1)
hi越大,则第i次观测在模型中的作用就越大
Cook’sD
COOKD统计量,对某一观测点引起回归影响大小的度量。
用于诊断异常点。
若D>50%,则可认为该观测点对模型的拟合有强的影响
covratio
协方差矩阵的行列式之比(去掉某一观测点后、前对比)
若|covra
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 讲义 多元 线性 回归 分析