书签分享收藏举报版权申诉 / 35

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 第二章回归分析Word格式文档下载.docx

第二章回归分析Word格式文档下载.docx

文档编号：21775462
上传时间：2023-02-01
格式：DOCX
页数：35
大小：558.05KB

《第二章回归分析Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《第二章回归分析Word格式文档下载.docx（35页珍藏版）》请在冰豆网上搜索。

第二章回归分析Word格式文档下载.docx

销售量

Y

百件

15

13

14

20

18

24

19

23

居民人均收入

X2

百元

12

单价

X3

元

z=[10101513142018241923

578991010121315

2325434354];

z1=z'

;

y=z1（:

1）;

X=[ones（size（z,2）,1）z1（:

[2,3]）];

[b,bint,r,rint,stats]=regress（y,X,0.05）

b=

4.5875

1.8685

-1.7996

bint=

-1.371310.5463

1.23092.5060

-3.5327-0.0664

r=

-0.3307

-2.2681

-0.9361

0.5941

-0.2054

2.1265

1.9261

2.3896

-0.8797

-2.4162

rint=

-4.09963.4382

-6.18571.6495

-4.98283.1106

-2.93584.1241

-4.77874.3678

-2.05186.3048

-2.37556.2277

-1.16435.9434

-4.90303.1435

-5.12370.2912

stats=

0.879325.50370.00063.8685

下面讨论各值是怎么计算的：

b的计算：

b=inv（X'

*X）*X'

*y

r=y-X*b

rint的计算：

rint等于：

在本例中：

引用2.2节的studres

studres=

-0.2075

-1.3690

-0.5470

0.3980

-0.1062

1.2035

1.0588

1.5900

-0.5171

-2.1103

rint=[r-tinv（0.975,7）*r./studresr+tinv（0.975,7）*r./studres]

也可按此计算：

rint=[r-tinv（0.975,7）*sqrt（s2_i）.*sqrt（1-leverage）r+tinv（0.975,7）*sqrt（s2_i）.*sqrt（1-leverage）]

SE平方的计算：

sum（r.^2）/7

ans=

3.8685

bint的计算：

bint=[b+tinv（0.975,7）*sqrt（diag（3.8685*inv（X'

*X）））b-tinv（0.975,7）*sqrt（diag（3.8685*inv（X'

*X）））]

10.5463-1.3713

2.50601.2309

-0.0664-3.5327

R2的计算：

R2=1-sum（r.^2）/（var（y）*（length（y）-1））

R2=

0.8793

F值的计算：

F=（R2/2）/（（1-R2）/（10-3））

F=

25.5037

F值对应的P值

P=1-fcdf（25.5037,2,7）

P=

6.1045e-004

还可绘制残差图

rcoplot（r,rint）

每条线的上下两端对应于rint，中间的圆卷点对应于r。

如果某条线不通过中间的白线（即X轴），那么所对应的（xi,yi）为野值。

这个图中所有线条都通过X轴。

预测：

假设在未来五年，居民人均收入以4.5%的速度递增，而单价以1%的速度递减。

x1

（1）=15;

>

x2

（1）=4;

fori=1:

x1（i+1）=1.045*x1（i）;

x2（i+1）=0.99*x2（i）;

y（i+1）=4.5875+1.8685*x1（i+1）-1.7996*x2（i+1）;

end

yf=[x1;

x2;

y]

yf=

Columns1through4

15.000015.675016.380417.1175

4.00003.96003.92043.8812

026.749828.139129.5869

Columns5through6

17.887818.6927

3.84243.8040

31.096132.6693

最后一行为未来五年的预测值（0除外）。

2.2regstats线性回归诊断

2.2.1命令：

regstats（responses,data,model）

responses:

因变量，y它是n×

1的列向量。

n为观察值个数。

data:

自变量，它是n×

m的矩阵，m为自变量个数，注意它不包括全为1的列向量。

model:

modelcanbeoneofthefollowingstrings

'

linear'

:

Includesconstantandlinearterms（default）.包括常数项和各变量。

interaction'

Includesconstant,linear,andcrossproductterms.如自变量有两个时，X1，X2，则包括常数项、X1，X2，还有X1×

X2。

quadratic'

Includesinteractionsandsquaredterms.如自变量有两个时，X1，X2，则包括常数项、X1，X2，还有X1·

X2、X12、X22。

purequadratic'

Includesconstant,linear,andsquaredterms。

如自变量有两个时，X1，X2，则包括常数项、X1，X2，还有X12、X22。

regstats（responses,data,model）此命令将打开一个用户界面，包括以下20个统计量：

可参见《市场调查与分析》柯惠新丁立宏编著中国统计出版社2000.3第十二章

《统计手册》茆诗松主编科学出版社2003.1第十章

《统计建模与R软件》薛毅陈立萍清华大学出版社2007.4第六章

参考网站：

（1）QRDecomposition（Q）《矩阵论》程云鹏P206

X=Q×

R，X包括全为1的列向量。

X为n×

p的矩阵。

[Q,R]=qr（X,0）Q是n×

p的矩阵，且满足Q'

*Q=I

（2）QRDecomposition（R）

[Q,R]=qr（X,0）R是p×

p的上三角形矩阵。

（3）RegressionCoefficients

beta=R\（Q'

*y）即beta=inv（R）*（Q'

*y）

把X=Q×

R代入beta=inv（X'

*y即得上式。

（4）FittedValuesoftheResponse

＝X*beta=X*inv（X'

（5）Residuals

（6）MeanSquaredError

（7）CovarianceMatrixofEstimatedCoefficients

（8）Hat（Projection）Matrix（帽子矩阵）

hatmat=Q*Q'

yhat=hatmat*y

hatmat为n×

n矩阵

将X=Q×

R代入yhat=X*beta=X*inv（X'

*y得：

yhat=Q*Q'

hatmat为投影矩阵。

（9）Leverage（中心化杠杆值）

leverage=diag（hatmat）=diag（Q*Q'

）,它是n×

1的列向量，n个值取值范围为[0，1]，第i值是度量第i的观察值在模型中的作用大小，如果第i个值越大，则在模型中的作用越大。

用leverage是寻找强影响点的一个办法。

所谓强影响点是指在模型中的作用特别大的点，就是说删除该点和不删除该点所得到的回归系数会有很差异的点。

理想的中心化杠杆值是每个杠杆值都具有相同的影响力，即所有的杠杆值都接近p/n，如果某个观测点的杠杆值大于等于2p/n，就认为它是一个强影响点。

（10）Delete-1Variance

它是除去第i个数据点后误差的方差的估计。

它是n×

s2_i=（（n-p）*mse-r.*r./（1-h））./（n-p-1）

1）nisthenumberofobservations.

2）pisthenumberofunknowncoefficients.

3）mseisthemeansquarederror.

4）risthevectorofresiduals.

5）histheleveragevector.

（11）Delete-1Coefficients

它是把第j个观察值删除后，所得回归系数矩阵。

它为p×

n的矩阵，它的第j列对应的列向量是删除第i个观察值所得的回归系数。

b_i（:

j）=beta-Rinv*（Q（j,:

）.*r（j）./（1-h（j）））'

1）RinvistheinverseoftheRmatrix.

2）risthevectorofresiduals.

3）histheleveragevector.

（12）StandardizedResiduals

standres=r./sqrt（mse*（1-h））

1）risthevectorofresiduals.

2）mseisthemeansquarederror.

Standres为n×

用它可以诊断异常点，异常点是指明显远离主体数据的观察点，表现为标准化残差（内学生化残差）过大的观测量，一般认为标准化残差绝对值大于2或3，则认为是异常点。

经典假设满足时，Standres（i）i=1、2、3…n，可近似看成独立同分布的，均服从标准正态分布

N（0，1）的随机变量。

如果大约有95%的点落在±

2内，且没有任何明显的变化趋势，说明回归的基本假定满足，模型对于数据的拟合效果较好。

（13）StudentizedResiduals

studres=r./sqrt（s2_i*（1-h））

2）s2_iisthedelete-1variance.

studres（i）i=1、2、3…n，经典假设满足时，服从自由度为n-p的t分布。

给定显著性水平

时，

则认为是异常点。

当n-p>

30时，一般认为观察值所对应的学生化残差绝对值大于2或3，则认为是异常点。

（14）ScaledChangeinRegressionCoefficients

Thescaledchangeinregressioncoefficientsisap-by-nmatrix.Eachcolumncontainsthescaledchangeintheestimatedcoefficients,beta,causedbydeletingthecorrespondingobservation.

d=sqrt（diag（Rinv*Rinv'

））;

dfbetas（:

j）=（beta-b_i（:

j））./（sqrt（s2_i（j）.*d（j））

2）b_iisthematrixofdelete-1coefficients.

3）s2_iisthevectorofdelete-1variances.

它是计算当某个观测点被排除后的回归系数的标准变化值，一般认为标准变化值大于

的点可能就是强影响点。

（15）ChangeinFittedValues

Thechangeinfittedvaluesisann-by-1vector.Eachelementcontainsthechangeinafittedvaluecausedbydeletingthecorrespondingobservation.

dffit=r.*（h./（1-h））

2）histheleveragevector.

表示删除某观察值后预测值的变化值。

（16）ScaledChangeinFittedValues

Thescaledchangeinfittedvaluesisann-by-1vector.Eachelementcontainsthechangeinafittedvaluecausedbydeletingthecorrespondingobservation,scaledbythestandarderror.

dffits=studres.*sqrt（h./（1-h））

1）studresisthevectorofstudentizedresiduals.

它是计算当某个观察点被排除后的预测值的预测值的标准变化值，一般认为标准变化值的绝对值大于

（17）ChangeinCovariance

covr=1./（（（（n-p-1+studres.*studres）./（n-p））.^p）.*（1-h））

2）pisthenumberofunknowncoefficients.

3）studresisthevectorofstudentizedresiduals.

4）histheleveragevector.

（18）Cook'

sDistance

cookd=r.*r.*（h./（1-h）.^2）./（p*mse）risthevectorofresiduals.

1）histheleveragevector.

3）pisthenumberofunknowncoefficients.

cookd是n×

1的列向量，如果第i个值大于0.5，则第i个观察值可能为强影响点。

（19）Student'

ststatistics

1）beta--Regressioncoefficientestimates

2）se--Standarderrorsfortheregressioncoefficientestimates

3）t--tstatisticsfortheregressioncoefficientestimates,eachoneforatestthatthecorrespondingcoefficientiszero

4）dfe--Degreesoffreedomforerror

5）pval--p-valuesforeachtstatistic,whichiscalculatedbythefollowingcode:

se=sqrt（diag（covb））

t=beta./se

dfe=n-p

pval=2*（tcdf（-abs（t）,dfe））

（20）Fstatistic

1）sse--Errorsumofsquares

2）ssr--Regressionsumofsquares

3）dfe--Errordegreesoffreedom

4）dfr--Regressiondegreesoffreedom

5）f--Fstatisticvalue,foratestthatallregressioncoefficientsotherthantheconstanttermarezero

6）pval--p-valuefortheFstatistic,whichiscalculatedbythefollowingcode:

sse=norm（r）.^2

ssr=norm（yfit-mean（yfit））.^2

dfr=p-1

f=（ssr/dfr）/（sse/dfe）

pval=1-fcdf（f,dfr,dfe）

X=z1（:

[2,3]）;

regstats（y,X,'

）

在用户界面里全部选中得：

Q=

-0.3162-0.5449-0.1902

-0.3162-0.31790.0288

-0.3162-0.2043-0.4207

-0.3162-0.09080.6204

-0.3162-0.09080.2478

-0.31620.0227-0.2017

-0.31620.02270.1710

-0.31620.2497-0.3554

-0.31620.36330.3131

-0.31620.5903-0.2132

R=

-3.1623-30.9903-11.0680

08.80911.8163

002.6835

beta=

covb=

6.3503-0.3247-0.7947

-0.32470.0727-0.1108

-0.7947-0.11080.5372

yhat=

10.3307

12.2681

15.9361

12.4059

14.2054

17.8735

16.0739

21.6104

19.8797

25.4162

mse=

3.8685

leverage=

0.4331

0.2019

0.3187

0.4932

0.1696

0.1412

0.1297

0.2887

0.3300

0.4939

sum（leverage）

3.0000

hatmat=

Columns1through8

0.43310.26770.29130.03150.10240.12600.05510.0315

0.26770.20190.15280.14670.13600.08700.09770.0104

0.29130.15280.3187-0.14240.01430.18020.02340.1985

0.03150.1467-0.14240.49320.2620-0.02720.2040-0.1

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二章回归分析第二回归分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第二章回归分析Word格式文档下载.docx
链接地址：https://www.bdocx.com/doc/21775462.html

第二章 回归分析Word格式文档下载.docx

热门标签

第二章回归分析Word格式文档下载.docx