应用回归分析第2章课后习题参考答案文档格式.docx
- 文档编号:22668492
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:31
- 大小:96.94KB
应用回归分析第2章课后习题参考答案文档格式.docx
《应用回归分析第2章课后习题参考答案文档格式.docx》由会员分享,可在线阅读,更多相关《应用回归分析第2章课后习题参考答案文档格式.docx(31页珍藏版)》请在冰豆网上搜索。
即-2刀(yi-0-1Xi)=0-2刀(yi-:
0-■1Xi)Xi=0
AAaA
又e=yi-(°
0+°
1x)=yi-B0-卩1Xi.•.”e=o,刀ex=0
(即残差的期望为0,残差以变量X的加权平均值为零)
2.4解:
参数B0,B1的最小二乘估计与最大似然估计在&
i~N(0,2)
i=1,2,…
•…n的条件下等价。
2.
证明:
因为;
i~N(*),i"
2..…°
2所以Yi八0」1X1」~N(:
0「1X1,1)其最大似然函数为
L(:
0,r卢2)=二:
/i(Yi)=(2=2)』/2exp{-2'
M-(:
0T0,X」]2}
Ln山札戸®
2)}=—才1n(2心2)-
1n
2、1、、
2J
2-id
2^2im
[Yi-(r「0,Xi)]2
已知使得Ln(L)最大的氏,翼就是B,P的最大似然估计值。
01
Q=E(Yi-YV=迟(Y—偲+%Xi))2
即使得下式最小:
11①
因为①恰好就是最小二乘估计的目标函数相同。
所以,在;
i~N(0f),i胡,2,•.…n的条件下,参数b0,b1的最小二
乘估计与最大似然估计等价
2.5.证明:
0是:
0的无偏估计。
证明:
若要证明:
0的无偏估计,则只需证明E(:
0)=:
0。
X-M=Lxy/Lxx
因为:
0,:
1的最小二乘估计为
y一-x其中
Lxy八
(Xi-x)(yi—y)二為Xiyi—nxy二為Xiyi
Xi二yi
Lxx八
(Xi—X)2二亠Xi2
-nx
=11
Xi
Xi)2
E(0)=E(
一?
x%
y一?
-X)=E(门i4
-X'
Xj-xyi)=E[yn
--x£
^)yi
]
Lxx
=E[
_Xj「X
x
-L-Xi
■J
=E(
其中
(-
i生n
_Xi-X
)+E(v
(丄一X^^^)-Xi
□Lxx
)+E(vn
(「吕
Lxx)
Xi_X)'
(丄-x”),(n-
nLn
产、(Xi—X))
LxxiT
迟(Xi
由于y
-X)
=0,
所以7nLxx=0
-X^^Xi)'
-(^^(Xi-X)Xi)
Lxxi吕
■:
i(X
Lxxid
(Xi-X)(Xi-X)一__
)=1(X-x)=0
yi='
o「-Xi•;
;
又因为一元线性回归模型为
各r独立同分布,
其分布为N(0f2)
所以E(
i)=0所以
LXX
、.(卡
XX
):
-Xi
=e(⑴e(o)-4(n_x
-'
o
所以:
o是:
o的无偏估计。
八*yi
2.6解:
因为nv
①,
育y「x
②,
yLxxyi
联立①②③式,得到
1—y—x
八(——x—n
L)y
1i-X
Var(:
)二Var「(x・
0yn'
xx
)y]
n1—Xi-X
八[(X*)]Var(yi)
i胡nLxx
=x
[A&
xL^)
nLxx
因为Lxx±
(Xi-X),沙十。
i生
,所以
1—叽。
)监(X)
2y(XiX)
2x
(X—x)
i=1
—2
1(X)_nLxx
2(Xi—x)丿
(X)
2.7证明平方和分解公式:
SST=SSE+SSR
一nn
sst=e(y^yf=x[(%-?
)+(?
-y]2
i=1id
nnn
八?
i-y22、yi-?
i)(?
i-y'
yi-?
)2
i1idid
八V\-、2、yi_?
)2=SSRSSE
i=1i=1
2.8验证三种检验的关系,即验证:
(1)
■(n-2)r
t
J-r2;
7
(2)
SSR/1Lxx弭2
SSE/(n»
「
SSR二:
因为
Lxx和二
SSE
n-2
(n-2)SSR
(n-2)SSRssT
-2
SSESST
又因为r
SSR
SST,
所以
1_r
SST-SSRSSE
(n-2)r
SST
故
/-r2得证。
SSR八(y?
.-y)
i吕
(彳?
Xj
-y)2八
-x)-y)2
=送(f?
(Xi_x))2=l?
2Lxx
lSSR/1
F=
SSE/(n-2)
2.9验证(2.63)
r
式:
var(e)=
仁丄.xi-x
Lxx
var(e)=var
(y.-y.)=var(y.)-var(y.)-2cov(y.,y.)
A.
var(y.)var(0°
+
px.)
1x.
-2cov(y.,y+
-
--2]
[
-—2〕
a沁2
1+(Xi-X)
—2b2
1+(xrx)
nLxx
I
1(Xi-x))
-丄
其中:
cov
yeXix
1
=•covyj,ycov
yi,(Xi-X)
1丿
=cov
—(Xi-X)
yi———yi
1n)-
y,—'
y-xcov
invii
2xrx2十CJ
一2、
+*i-X)
注:
各个因变量yi,y2y是独立的随机变量
var(XY)二var(X)var(Y)_2cov(X,Y)
2.10用第9题证明
A
CJ
巳曰
n-2是二
2的无偏估计量
E
(J
nzn-2i=1
Ey「yi
丄J
n-2i=1
varei
n-2id
送1」-幺二xl
CT
(n-2bn-2
=ff
var(X)=E(x2)」E(X)『
2_F
2.11验证rF•n—2
F二SSE
(n-2)
SSE_(n-2)
二*(n_2)所以有SSLF
2_SSR_SSR_1_1_F
r二苛二SSRSSE=1SSE〔.(n-2)=Fn-2
/SSRiJ/f丿
以上表达式说明r2与F等价,但我们要分别引入这两个统计量,而不是只引入其中一个。
理由如下:
1r2与F,n都有关,且当n较小时,r较大,尤其当n趋向于2时,|r|趋向于1,说明x与y的相关程度很高;
但当n趋向于2或等于2时,可能回归方程并不能通过F的显著性检验,即可能x与y都不存在显著的线性关系。
所以,仅凭r较大并不能断定x与y之间有密切的相关关系,只有当样本量n较大时才可以用样本相关系数r判定两变量间的相关程度的强弱。
2F检验检验是否存在显著的线性关系,相关系数的
显著性检验是判断回归直线与回归模型拟合的优劣,只有二者结合起来,才可以
更好的回归结果的好坏。
2.12如果把自变量观测值都乘以2,回归参数的最小二乘法估计氏和冈会发生什么变化?
如果把自变量观测值都加上2,回归参数的最小二乘估计区和氏会发生什么变化?
解:
解法
(一):
我们知道当%「一必;
i,E(yi)=『时,用最小二乘法估
1邑s刃
-i-i
A=山
计的?
和?
分别为
U⑴当x:
=2xi时
有错误!
未找到引用源
壬二一232丙=2x
科1-1
尹=丄士丈」壬5+兀点)=戸+死直«
i-L冲i-l
将②③带入①得到
炉y—稲
£
(年—刃5—刃
2-1
-窃
i-1
⑵当Xj=2Xj时源。
輕
错误!
未找到引用
未找到引用源。
错误!
未找到引用源将②③带入①得到•
隽=y-^A
另(阳-耳3-刃U1
另(獰-初
3-1
解法
(二):
当%=札+咕+遇,E(yJ=Po+0iX时,有
Q(氏,片)二》(y-E(yJ)2=迟⑶—札—眼)2
i=1i=1
当x「=2Xi时yi=:
0•2:
iXj;
i二yi•ixE(y「)=:
o,2ixi
Q(B°
跆‘二迟(y「-E(yy(yi+RiXi」0—2毗「=迟(y「九_Bix)2
i」i4i」
当Xi"
=Xi+2y「=Bo+加+2當+Bi=yi+2^1E(y;
)=+盼+2为
当
Q(~,J八A-E(yJ)2八(yi•2r-一:
。
-一:
必-2J八卜「。
_非)2
iAiAi」rh
由
最小二乘法可知,离差平方和Q(:
0,:
1)=Q(:
1)=Q(:
0,:
1)时,其估计值应当有错误!
即回归参数的最小二乘估计氐和网在自变量观测值变化时不会变。
2.13如果回归方程错误!
相应的相关系数r很大,则用它预测时,预测误差一定较小。
这一结论能成立吗?
对你的回答说明理由。
这一结论不成立。
因为相关系数r表示x与错误!
线性关系的密切程度,而它接近1的程度与数据组数有关。
n越小,r越接近1。
n=2时,|r|=1。
因此仅凭相关系数说明x与?
有密切关系是不正确的。
只有在样本量较大时,用相关系数r判定两变量之间的相关程度才可以信服,这样预测的误差才会较小。
2.14解:
(1)散点图为:
(2)x与y大致在一条直线上,所以x与y大致呈线性关系
(3)得
到计
算表:
X
Y
(Xi-X)
(Yi-Y)
(Xi-X)(Yi-Y)
Y?
&
-Y)2
(Y?
-Yi)2
10
4
100
20
6
(-14)2
(-4)2
Ifl-
aa
13
(-7)2
(3)2
3
27
72
5
40
400
34
142
(-6)2
和
15
Lxx=10
Lyy=60
和Lxy=70
SSR=490
SSE=110
均3
均
均20
1n2
磴Wn—2
•sse二空
所以回归方程为:
W=%十国X=-1+7XA2
CF
(4)
J、3306.1
所以,3
时:
N(00,』+学声2)
0的置信区间为
匕(x〉2;
丹k2
1:
N(_1,—)
同理,因为Lxx,所以,
查表知,GL辭給磁(班3陆
P
1的置信区间为
=20-37--1.
(5)因为nLxx
AA.
所以,卩0的置信区间为(-21.21,19.21),卩1的置信区间为(0.91,13.09)。
2SSRSSR490
(6)决疋系数R20.817
SSTLyy600
(7)计算得出,方差分析表如下:
方差来源
平方和
自由度
均方
F值
490
13.364
110
36.667
600
查表知,F0.05(1,3)=10.13,F值>
F0.05(1,3),故拒绝原假设,说明回归方程显著。
1的显著性检验
(8)做回归系数B
计算t统计量:
查表知,n-2)
说明x和Y有显著的线性关系
(9)做相关系数r的显著性检验:
所以,相关系数R:
0.951
=鮎曲⑶=3.182
1匚7帀21
3.66£
^/330履
所以,t>
t0.05/2(3),所以接受原假设,
只2严―Si?
因为查表知,n-2等于3时•=1%勺值为0.959•=5%勺值为0.878。
所以,a=5%v|r|v口=〔%故x与y有显著的线性关系。
(10)残差表为:
序号
y
Ay
残差e
-3
-7
残差图为:
(11)当X0=4.2时苦
AA
其95%勺置信区间
可近似为近似为y±
2口,即为:
(17.1,39
2.15解:
(1)画散点图;
散点图,得到散点图(表1)如下:
图形一旧对话框-
-fiX-
-75C-
I1
(2)x与y之间是否大致呈线性关系?
由上面
(1)散点图可以看出,x与y之间大致呈线性关系。
用最小二乘估计求出回归方程;
分析一回归一线性,得到“回归系数显著性检验表(表2)如下:
Coefficientsa
Model
UnstandardizedCoefficients
Standardized
Coefficients
B
Std.Error
Beta
(Constant)
.118
.355
.333
每周签发的新保单数
目x
.004
.000
.949
8.509
a.DependentVariable:
每周加班工作时间y
由上表可知:
nJWulETii喘
1.D-
0=0.1181=0.004
所以可得回归方程为:
y=0.118+0.004x
(4)求回归标准误差二;
分析一回归一线性,得到“方析分析表(表3)”如下:
ANOVAb
Sumof
Squares
df
MeanSquare
F
Sig.
Regression
16.682
72.396
.000a
Residual
1.843
8
.230
Total
18.525
9
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
=n-2
v(yLyi)
SSE1.843
=n-2=10-2=0.23
=0.48
由上表可得,
SSE=1.843n=10
故回归标准误差为:
PP
(5)给出0与1的置信度为95%勺区间估计;
由表2可以看出,当置信度为95%寸,
0的预测区间为:
[-0.701,0.937]
1的预测区间为:
[0.003,0.005]
(6)计算x与y的决定系数;
分析一回归一线性,得到“模型概要表(表4)”如下:
ModelSummaryb
R
RSquare
AdjustedRSquare
Std.Errorofthe
Estimate
.949a
.900
.888
.4800
由上表可知,x与y的决定系数为0.9,可以看到很接近于1,这就说明此模型的拟合度很好。
(7)对回归方程作方差分析;
由“方差分析表(表3)”可得,F-值=72.396,
,B
我们知道,当原假设H0:
1=0成立时,F服从自由度为(1,n-2)的F
分布(见P38),临界值Fa(1,n-2)=F0.05(1,8)=5.32
因为F-值=72.396>
5.32,
所以拒绝原假设,说明回归方程显著,即x与y有
显著的线性关系。
(8)做回归系数:
1显著性的检验;
由“回归系数显著性检验表(表2)”可得,
1的t检验统计量为t=8.509,对应p-值近似为0,pc,说明每周签发的新报单数目x对每周加班工作时间y有显著的影响
(9)做相关系数的显著性检验;
分析一相关一双变量,得到“相关分析表(表5)”如下:
Correlations
每周签发的新
保单数目x
每周加班工作时间y
每周签发的新保单数目
Pearson
Correlation
.949**
Sig.(2-tailed)
N
每周加班工作时间y
**.Correlationissignificantatthe0.01level(2-tailed).
由上表可知,相关系数为0.949,说明x与y显著线性相关。
(10)对回归方程作残差图并作相应的分析;
NormalP-P尸lotofRegressionStandardizedResidual
DependentVariable:
毎周加闵士-r1作时问*
U.U0.2CJ.4口用□.日1.O
Obs@rvedCumProb
qEdE30pfiMdlll
从上图可以看出,残差是围绕e=0随即波动的,满足模型的基本假设。
(11)该公司预计下一周签发新保单xo=iooo张,需要的加班时间是多少?
当x0=1000张时,yo=0.118+0.004X1000=4.118小时。
(12)给出y0的置信水平为95%勺精确预测区间和近似预测区间。
(13)给出E(y0)置信水平为95%勺区间估计。
最后两问一起解答:
在计算回归之前,把自变量新值x0输入样本数据中,因变量的相应值空缺,然后在Save对话框中点选Individul和Mean计算因变量单个新值y。
和因变量平均值E(y0)的置信区间。
结果显示在原始数据表中,如下图所示(由于排
版问题,中间部分图省略):
y°
的精确预测区间为:
[2.519,4.887]
E(y°
)的区间估计为:
[3.284,4.123]
而y°
的近似预测区间则根据y°
-2二手动计算,结果为:
[4.118-2X0.48,4.118+2X°
.48]=[3.158,5.078]
2.16解答:
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
如图所示:
系数a
模型非标准化系数|
标准系数
(2)由上图可以看出,y与x的散点分布大致呈直线趋势,所以可以用直线回归描述两者之间的关系。
(3)建立y对x的线性回归。
利用SPSS建立y对x的线性回归,输出结果如下:
表1
模型汇总
模型
R方
调整R方
标准估计的
误差
.835a
.697
.691
2323.256
a.预测变量:
(常量),x。
Anovab
回归
6.089E8
112.811.
000a
残差
2.645E8
49
5397517.938
总计
8.734E8
50
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 分析 课后 习题 参考答案
![提示](https://static.bdocx.com/images/bang_tan.gif)