3多元线性回归与最小二乘估计Word格式.docx
- 文档编号:13675713
- 上传时间:2022-10-12
- 格式:DOCX
- 页数:15
- 大小:148.16KB
3多元线性回归与最小二乘估计Word格式.docx
《3多元线性回归与最小二乘估计Word格式.docx》由会员分享,可在线阅读,更多相关《3多元线性回归与最小二乘估计Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
u)=0
假定⑶解释变量之间线性无关。
rk(X'
X)=rk(X)=k
其中rk()表示矩阵的秩。
假定⑷解释变量是非随机的,且当T→∞时
T–1X'
X→Q
其中Q是一个有限值的非退化矩阵。
最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。
代数上是求极值问题。
minS=(Y-X)'
(Y-X)=Y'
Y-'
X'
Y-Y'
X+'
X
=Y'
Y-2'
Y+'
X(1.5)
因为Y'
X是一个标量,所以有Y'
X='
Y。
(1.5)的一阶条件为:
=-2X'
Y+2X'
X=0(1.6)
化简得
Y=X'
因为(X'
X)是一个非退化矩阵(见假定⑶),所以有
=(X'
X)-1X'
Y(1.7)
因为X的元素是非随机的,(X'
X)-1X是一个常数矩阵,则是Y的线性组合,为线性估计量。
求出,估计的回归模型写为
Y=X+(1.9)
其中=(…)'
是的估计值列向量,=(Y-X)称为残差列向量。
因为
=Y-X=Y-X(X'
X)-1X'
Y=[I-X(X'
]Y(1.10)
所以也是Y的线性组合。
的期望和方差是
E()=E[(X'
Y]=E[(X'
(X+u)]
=+(X'
E(u)=(1.11)
Var()=E[(–)(–)'
]=E[(X'
uu'
X(X'
X)-1]
=E[(X'
2IX(X'
X)-1]=2(X'
X)-1(1.12)
高斯—马尔可夫定理:
若前述假定条件成立,OLS估计量是最佳线性无偏估计量。
具有无偏性。
具有最小方差特性。
具有一致性,渐近无偏性和渐近有效性。
2.残差的方差
s2='
/(T-k)(1.13)
s2是的无偏估计量,E(s2)=。
的估计的方差协方差矩阵是
()=s(X'
X)-1(1.14)
3.多重确定系数(多重可决系数)
Y=X+=+(1.15)
总平方和
SST==Y'
Y-T,(1.16)
其中是yt的样本平均数,定义为=。
回归平方和为
SSR=='
-T(1.17)
其中的定义同上。
残差平方和为
SSE==='
(1.18)
则有如下关系存在,
SST=SSR+SSE(1.19)
R2=(1.20)
显然有0£
R2£
1。
R2®
1,拟合优度越好。
4.调整的多重确定系数
当解释变量的个数增加时,通常R2不下降,而是上升。
为调整因自由度减小带来的损失,又定义调整的多重确定系数如下:
=1-=1-(1.21)
5.OLS估计量的分布
若u~N(0,I),则每个ut都服从正态分布。
于是有
Y~N(X,I)(1.22)
因也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有
~N(,(X'
X)-1)(1.23)
6.方差分析与F检验
与SST相对应,自由度T-1也被分解为两部分,
(T-1)=(k-1)+(T-k)(1.24)
回归均方定义为MSR=,误差均方定义为MSE=
表1.1方差分析表
方差来源
平方和
自由度
均方
回归
SSR='
-T2
k-1
MSR=SSR/(k-1)
误差
SSE='
T-k
MSE=SSE/(T-k)
总和
SST=Y'
Y-T2
T-1
H0:
1=2=…=k-1=0;
H1:
j不全为零
F==~F(k-1,T-k)(1.25)
设检验水平为,则检验规则是,若F≤F(k-1,T-k),接受H0;
若F>
F(k-1,T-k),拒绝H0。
0F(k-1,T-k)-t(T-k)0t(T-k)
F检验示意图t检验示意图
7.t检验
H0:
j=0,(j=1,2,…,k-1),H1:
j¹
0
t==~t(T-k)(1.26)
判别规则:
若½
t½
£
tk接受H0;
>
tk拒绝H0。
8.i的置信区间
(1)全部i的联合置信区间接受
F=(-)'
(X'
X)(-)/s2~F(k,T-k)(1.27)
(-)'
X)(-)≤s2kF(k,T-k),它是一个k维椭球。
(1.28)
(2)单个i的置信区间
i=±
stk.(1.29)
9.预测
(1)点预测
C=(1xT+11xT+12…xT+1k-1)(1.30)
则T+1期被解释变量yT+1的点预测式是,
=C=0+1xT+11+…+k-1xT+1k-1(1.31)
(2)E(yT+1)的置信区间预测
首先求点预测式C的抽样分布
E()=E(C)=C(1.32)
Var()=Var(C)=E[(C-C)(C-C)'
]
=E[C(-)[C(-)]'
]=CE[(-)(-)'
]C'
=CVar()C'
=C2(X'
X)-1C'
=2C(X'
(1.33)
因为服从多元正态分布,所以C也是一个多元正态分布变量,即
=CN(C,2C(X'
X)-1C'
)(1.34)
构成t分布统计量如下
t==t(T-k)(1.35)
置信区间C±
t/2(1,T-k)s(1.36)
(3)单个yT+1的置信区间预测
yT+1值与点预测值有以下关系
yT+1=+uT+1(1.37)
其中uT+1是随机误差项。
E(yT+1)=E(+uT+1)=C(1.38)
Var(yT+1)=Var()+Var(uT+1)=2C(X'
X)-1C'
+2
=2(C(X'
+1)(1.39)
因为服从多元正态分布,所以yT+1也是一个多元正态分布变量,即
yT+1N(C,2C(X'
+1)
与上相仿,单个yT+1的置信区间是
C±
t/2(T-k)s(1.40)
计算举例:
(见《计量经济分析》第19-27页,熟悉矩阵运算)
10.预测的评价指标
注意,以下6个公式中的et表示的是预测误差,不是残差。
可以在样本内、外预测。
(1)预测误差。
预测误差定义为
et=-yt,t=T+1,T+2,…
是对单点预测误差大小的测量。
(2)相对误差PE(PercentageError)。
PE=,t=T+1,T+2,…
是对单点预测相对误差大小的测量。
(3)误差均方根rmserror(RootMeanSquaredError)
rmserror=
通过若干个预测值对预测效果进行综合评价。
(4)绝对误差平均MAE(MeanAbsoluteError)
MAE=
通过若干个预测值对预测的绝对误差进行综合评价。
(5)相对误差绝对值平均MAPE(MeanAbsolutePercentageError)
MAPE=
综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。
以上6个式子中,表示预测值,yt表示实际值。
Theil的取值范围是[0,1]。
显然在预测区间内,当与yt完全相等时,Theil=0;
当预测结果最差时,Theil=1。
公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。
11.建模过程中应注意的问题
(1)研究经济变量之间的关系要剔除物价变动因素。
以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。
另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。
可见研究经济变量应该剔除物价变动因素。
(2)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。
例:
我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。
但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。
粮食产量的提高主要来自科技含量的提高。
关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。
现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。
(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。
例:
“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。
2002年起
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 最小 估计
![提示](https://static.bdocx.com/images/bang_tan.gif)