第二章 回归分析Word格式文档下载.docx
- 文档编号:21775462
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:35
- 大小:558.05KB
第二章 回归分析Word格式文档下载.docx
《第二章 回归分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《第二章 回归分析Word格式文档下载.docx(35页珍藏版)》请在冰豆网上搜索。
销售量
Y
百件
15
13
14
20
18
24
19
23
居民人均收入
X2
百元
12
单价
X3
元
z=[10101513142018241923
578991010121315
2325434354];
z1=z'
;
y=z1(:
1);
X=[ones(size(z,2),1)z1(:
[2,3])];
[b,bint,r,rint,stats]=regress(y,X,0.05)
b=
4.5875
1.8685
-1.7996
bint=
-1.371310.5463
1.23092.5060
-3.5327-0.0664
r=
-0.3307
-2.2681
-0.9361
0.5941
-0.2054
2.1265
1.9261
2.3896
-0.8797
-2.4162
rint=
-4.09963.4382
-6.18571.6495
-4.98283.1106
-2.93584.1241
-4.77874.3678
-2.05186.3048
-2.37556.2277
-1.16435.9434
-4.90303.1435
-5.12370.2912
stats=
0.879325.50370.00063.8685
下面讨论各值是怎么计算的:
b的计算:
b=inv(X'
*X)*X'
*y
r=y-X*b
rint的计算:
rint等于:
在本例中:
引用2.2节的studres
studres=
-0.2075
-1.3690
-0.5470
0.3980
-0.1062
1.2035
1.0588
1.5900
-0.5171
-2.1103
rint=[r-tinv(0.975,7)*r./studresr+tinv(0.975,7)*r./studres]
也可按此计算:
rint=[r-tinv(0.975,7)*sqrt(s2_i).*sqrt(1-leverage)r+tinv(0.975,7)*sqrt(s2_i).*sqrt(1-leverage)]
SE平方的计算:
sum(r.^2)/7
ans=
3.8685
bint的计算:
bint=[b+tinv(0.975,7)*sqrt(diag(3.8685*inv(X'
*X)))b-tinv(0.975,7)*sqrt(diag(3.8685*inv(X'
*X)))]
10.5463-1.3713
2.50601.2309
-0.0664-3.5327
R2的计算:
R2=1-sum(r.^2)/(var(y)*(length(y)-1))
R2=
0.8793
F值的计算:
F=(R2/2)/((1-R2)/(10-3))
F=
25.5037
F值对应的P值
P=1-fcdf(25.5037,2,7)
P=
6.1045e-004
还可绘制残差图
rcoplot(r,rint)
每条线的上下两端对应于rint,中间的圆卷点对应于r。
如果某条线不通过中间的白线(即X轴),那么所对应的(xi,yi)为野值。
这个图中所有线条都通过X轴。
预测:
假设在未来五年,居民人均收入以4.5%的速度递增,而单价以1%的速度递减。
x1
(1)=15;
>
x2
(1)=4;
fori=1:
x1(i+1)=1.045*x1(i);
x2(i+1)=0.99*x2(i);
y(i+1)=4.5875+1.8685*x1(i+1)-1.7996*x2(i+1);
end
yf=[x1;
x2;
y]
yf=
Columns1through4
15.000015.675016.380417.1175
4.00003.96003.92043.8812
026.749828.139129.5869
Columns5through6
17.887818.6927
3.84243.8040
31.096132.6693
最后一行为未来五年的预测值(0除外)。
2.2regstats线性回归诊断
2.2.1命令:
regstats(responses,data,model)
responses:
因变量,y它是n×
1的列向量。
n为观察值个数。
data:
自变量,它是n×
m的矩阵,m为自变量个数,注意它不包括全为1的列向量。
model:
modelcanbeoneofthefollowingstrings
'
linear'
:
Includesconstantandlinearterms(default).包括常数项和各变量。
interaction'
Includesconstant,linear,andcrossproductterms.如自变量有两个时,X1,X2,则包括常数项、X1,X2,还有X1×
X2。
quadratic'
Includesinteractionsandsquaredterms.如自变量有两个时,X1,X2,则包括常数项、X1,X2,还有X1·
X2、X12、X22。
purequadratic'
Includesconstant,linear,andsquaredterms。
如自变量有两个时,X1,X2,则包括常数项、X1,X2,还有X12、X22。
regstats(responses,data,model)此命令将打开一个用户界面,包括以下20个统计量:
可参见《市场调查与分析》柯惠新丁立宏编著中国统计出版社2000.3第十二章
《统计手册》茆诗松主编科学出版社2003.1第十章
《统计建模与R软件》薛毅陈立萍清华大学出版社2007.4第六章
参考网站:
(1)QRDecomposition(Q)《矩阵论》程云鹏P206
X=Q×
R,X包括全为1的列向量。
X为n×
p的矩阵。
[Q,R]=qr(X,0)Q是n×
p的矩阵,且满足Q'
*Q=I
(2)QRDecomposition(R)
[Q,R]=qr(X,0)R是p×
p的上三角形矩阵。
(3)RegressionCoefficients
beta=R\(Q'
*y)即beta=inv(R)*(Q'
*y)
把X=Q×
R代入beta=inv(X'
*y即得上式。
(4)FittedValuesoftheResponse
=X*beta=X*inv(X'
(5)Residuals
(6)MeanSquaredError
(7)CovarianceMatrixofEstimatedCoefficients
(8)Hat(Projection)Matrix(帽子矩阵)
hatmat=Q*Q'
yhat=hatmat*y
hatmat为n×
n矩阵
将X=Q×
R代入yhat=X*beta=X*inv(X'
*y得:
yhat=Q*Q'
hatmat为投影矩阵。
(9)Leverage(中心化杠杆值)
leverage=diag(hatmat)=diag(Q*Q'
),它是n×
1的列向量,n个值取值范围为[0,1],第i值是度量第i的观察值在模型中的作用大小,如果第i个值越大,则在模型中的作用越大。
用leverage是寻找强影响点的一个办法。
所谓强影响点是指在模型中的作用特别大的点,就是说删除该点和不删除该点所得到的回归系数会有很差异的点。
理想的中心化杠杆值是每个杠杆值都具有相同的影响力,即所有的杠杆值都接近p/n,如果某个观测点的杠杆值大于等于2p/n,就认为它是一个强影响点。
(10)Delete-1Variance
它是除去第i个数据点后误差的方差的估计。
它是n×
s2_i=((n-p)*mse-r.*r./(1-h))./(n-p-1)
1)nisthenumberofobservations.
2)pisthenumberofunknowncoefficients.
3)mseisthemeansquarederror.
4)risthevectorofresiduals.
5)histheleveragevector.
(11)Delete-1Coefficients
它是把第j个观察值删除后,所得回归系数矩阵。
它为p×
n的矩阵,它的第j列对应的列向量是删除第i个观察值所得的回归系数。
b_i(:
j)=beta-Rinv*(Q(j,:
).*r(j)./(1-h(j)))'
1)RinvistheinverseoftheRmatrix.
2)risthevectorofresiduals.
3)histheleveragevector.
(12)StandardizedResiduals
standres=r./sqrt(mse*(1-h))
1)risthevectorofresiduals.
2)mseisthemeansquarederror.
Standres为n×
用它可以诊断异常点,异常点是指明显远离主体数据的观察点,表现为标准化残差(内学生化残差)过大的观测量,一般认为标准化残差绝对值大于2或3,则认为是异常点。
经典假设满足时,Standres(i)i=1、2、3…n,可近似看成独立同分布的,均服从标准正态分布
N(0,1)的随机变量。
如果大约有95%的点落在±
2内,且没有任何明显的变化趋势,说明回归的基本假定满足,模型对于数据的拟合效果较好。
(13)StudentizedResiduals
studres=r./sqrt(s2_i*(1-h))
2)s2_iisthedelete-1variance.
studres(i)i=1、2、3…n,经典假设满足时,服从自由度为n-p的t分布。
给定显著性水平
时,
则认为是异常点。
当n-p>
30时,一般认为观察值所对应的学生化残差绝对值大于2或3,则认为是异常点。
(14)ScaledChangeinRegressionCoefficients
Thescaledchangeinregressioncoefficientsisap-by-nmatrix.Eachcolumncontainsthescaledchangeintheestimatedcoefficients,beta,causedbydeletingthecorrespondingobservation.
d=sqrt(diag(Rinv*Rinv'
));
dfbetas(:
j)=(beta-b_i(:
j))./(sqrt(s2_i(j).*d(j))
2)b_iisthematrixofdelete-1coefficients.
3)s2_iisthevectorofdelete-1variances.
它是计算当某个观测点被排除后的回归系数的标准变化值,一般认为标准变化值大于
的点可能就是强影响点。
(15)ChangeinFittedValues
Thechangeinfittedvaluesisann-by-1vector.Eachelementcontainsthechangeinafittedvaluecausedbydeletingthecorrespondingobservation.
dffit=r.*(h./(1-h))
2)histheleveragevector.
表示删除某观察值后预测值的变化值。
(16)ScaledChangeinFittedValues
Thescaledchangeinfittedvaluesisann-by-1vector.Eachelementcontainsthechangeinafittedvaluecausedbydeletingthecorrespondingobservation,scaledbythestandarderror.
dffits=studres.*sqrt(h./(1-h))
1)studresisthevectorofstudentizedresiduals.
它是计算当某个观察点被排除后的预测值的预测值的标准变化值,一般认为标准变化值的绝对值大于
(17)ChangeinCovariance
covr=1./((((n-p-1+studres.*studres)./(n-p)).^p).*(1-h))
2)pisthenumberofunknowncoefficients.
3)studresisthevectorofstudentizedresiduals.
4)histheleveragevector.
(18)Cook'
sDistance
cookd=r.*r.*(h./(1-h).^2)./(p*mse)risthevectorofresiduals.
1)histheleveragevector.
3)pisthenumberofunknowncoefficients.
cookd是n×
1的列向量,如果第i个值大于0.5,则第i个观察值可能为强影响点。
(19)Student'
ststatistics
1)beta--Regressioncoefficientestimates
2)se--Standarderrorsfortheregressioncoefficientestimates
3)t--tstatisticsfortheregressioncoefficientestimates,eachoneforatestthatthecorrespondingcoefficientiszero
4)dfe--Degreesoffreedomforerror
5)pval--p-valuesforeachtstatistic,whichiscalculatedbythefollowingcode:
se=sqrt(diag(covb))
t=beta./se
dfe=n-p
pval=2*(tcdf(-abs(t),dfe))
(20)Fstatistic
1)sse--Errorsumofsquares
2)ssr--Regressionsumofsquares
3)dfe--Errordegreesoffreedom
4)dfr--Regressiondegreesoffreedom
5)f--Fstatisticvalue,foratestthatallregressioncoefficientsotherthantheconstanttermarezero
6)pval--p-valuefortheFstatistic,whichiscalculatedbythefollowingcode:
sse=norm(r).^2
ssr=norm(yfit-mean(yfit)).^2
dfr=p-1
f=(ssr/dfr)/(sse/dfe)
pval=1-fcdf(f,dfr,dfe)
X=z1(:
[2,3]);
regstats(y,X,'
)
在用户界面里全部选中得:
Q=
-0.3162-0.5449-0.1902
-0.3162-0.31790.0288
-0.3162-0.2043-0.4207
-0.3162-0.09080.6204
-0.3162-0.09080.2478
-0.31620.0227-0.2017
-0.31620.02270.1710
-0.31620.2497-0.3554
-0.31620.36330.3131
-0.31620.5903-0.2132
R=
-3.1623-30.9903-11.0680
08.80911.8163
002.6835
beta=
covb=
6.3503-0.3247-0.7947
-0.32470.0727-0.1108
-0.7947-0.11080.5372
yhat=
10.3307
12.2681
15.9361
12.4059
14.2054
17.8735
16.0739
21.6104
19.8797
25.4162
mse=
3.8685
leverage=
0.4331
0.2019
0.3187
0.4932
0.1696
0.1412
0.1297
0.2887
0.3300
0.4939
sum(leverage)
3.0000
hatmat=
Columns1through8
0.43310.26770.29130.03150.10240.12600.05510.0315
0.26770.20190.15280.14670.13600.08700.09770.0104
0.29130.15280.3187-0.14240.01430.18020.02340.1985
0.03150.1467-0.14240.49320.2620-0.02720.2040-0.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 回归分析 第二 回归 分析