1、应用回归分析习题复习资料SAS程序2.16 (1) 绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?程序如下: 结果:表一:由表一,可得可以用直线回归描述两者的关系。(2)建立y对x的线性回归,p r cli clm结果表二:由表二可得,F=112.81,P0.0001,可知,模型的拟合数据较好。表三:又R方=0.6972,故知因变量y总体变异中69.72%被自变量x所解释。表四:由表四P|t|Intercept1-348.28017176.45922-1.970.0959x113.754041.933321.940.1002x217.100712.880282.470.0488x31
2、12.4474710.569331.180.2835回归方程为:(3)均方根误差23.44188R 方0.8055因变量均值231.50000调整 R 方0.7083变异系数10.12608样本决定系数R方为0.8055 则回归方程显著;(4)方差分析源自由度平方和均方F 值PrF模型3136554551.789848.280.0149误差63297.13048549.52175校正合计916953F=8.28 ,P=0.0149 模型有显著性意义;(5)参数估计值变量自由度参数估计值标准误差t值Pr|t|Intercept1-348.28017176.45922-1.970.0959x113
3、.754041.933321.940.1002x217.100712.880282.470.0488x3112.4474710.569331.180.2835工业总产值的P值为0.1002 在显著性水平0.05 上对y货运总量不显著;农业总产值的P值为0.0488 在显著性水平0.05上对y货运总量显著;居民非商品支出P值为0.2835在显著性水平0.05上对y货运总量不显著;(6)剔除重新建立回归方程proc reg data=huoyun;model y=x1 x2/clb;run;方差分析源自由度平方和均方F 值PrF模型2128936446.5995011.120.0067误差7405
4、9.30099579.90014校正合计916953F值为11.12 ,P值为0.0067 模型高度显著;参数估计值变量自由度参数估计值标准误差t值Pr|t|Intercept1-459.62365153.05757-3.000.0199x114.675631.816072.570.0368x218.970962.468463.630.0084工业总产值的P值为0.0368 在显著性水平0.05 上对y货运总量显著;农业总产值的P值为0.0084 在显著性水平0.05上对y货运总量显著;(7)参数估计值变量自由度参数估计值标准误差t值Pr|t|95% 置信限Intercept1-459.623
5、65153.05757-3.000.0199-821.54730-97.70001x114.675631.816072.570.03680.381308.96996x218.970962.468463.630.00843.1339814.80794的回归系数置信区间为(0.38130,8.9996)的回归系数置信区间为(3.13398,14.80794)4.9(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。程序:data yd;input x y;cards;679 0.79 292 0.44 1012 0.56 493 0.79 582 2.71156 3.64 997 4.7
6、3 2189 9.5 1097 5.34 2078 6.851818 5.84 1700 5.21 747 3.25 2030 4.43 1643 3.16414 0.5 354 0.17 1276 1.88 745 0.77 435 1.39 540 0.56 874 1.56 1543 5.28 1029 0.64 710 4 1434 0.31 837 4.21748 4.88 1381 3.48 1428 7.58 1255 2.63 1777 4.99 370 0.59 2316 8.19 1130 4.79 463 0.51 770 1.74 724 4.1 808 3.94 79
7、0 0.96 783 3.29 406 0.44 1242 3.24658 2.14 1746 5.71 468 0.64 1114 1.90 413 0.511787 8.33 3560 14.94 1495 5.11 2221 3.85 1526 3.93;proc plot data=yd;plot y*x=*;run;结果由散点图可知:Y和X有线性关系,故可建立回归方程。程序proc reg data=yd ;model y=x/r;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;结果:由方
8、差分析可得:P0.0655大于0.05,故常数项不显著.需要除去常数项重新拟合方程。程序proc reg data=yd;model y=x/noint;run;结果:由方差分析得:P0.05,所以该回归方程显著,而且F值较有常数项时更大,所以无常数项时拟合方程更好;R方=0.8704,调整R方为0.8679,回归方程的拟合度有较大幅度提高;由参数估计:参数P值均0.05,参数显著有效;所以拟合方程为:y=0.00314x残差散点图如下:(2) 判断该问题是否存在异方差。由残差散点图可以得:误差随X的增加而波动幅度增加,呈大喇叭的形状,因此认为方差项存在异方差.故利用等级相关系数法判断:pro
9、c reg data=yd;model y=x/r noint;output out=out1 r=residual;run;data out2;set out1;z=abs(residual);run;proc corr data=out2 spearman;var x z;run;结果:残差绝对值与xi的等级相关系数rs=0.21271,对应的P值=0.126,认为残差绝对值与自变量xi显著相关,存在异方差.(2)若存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。由(2)结论存在异方差,则程序:data a;set yd;array row10 w1-w10;array p10(-
10、2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5);do i=1 to 10;rowi=1/x*pi;end;run;proc print;run;proc reg data=a;model y=x/r;weight w1;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;结果;由方差分析:p0.05,回归方程显著有效;R方=0.8175,调整R方为0.8139,回归方程拟合度较高;由参数估计:参数检验的P值均小于0.05,参数显著有效;所以回归方程: y=-2.40038+0.004
11、6x残差散点图:由残差图可以知:误差仍随着x的增加而波动增加,所有认为误差仍存在异方差.(4) 用方差稳定变换消除异方差。pr proc reg data=yd ;model y=x/r;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;data a1;set yd;y=sqrt(y);run;proc print;run;proc reg data=a1;model y=x/r;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;结果:由方差分析:回归方程通过了检验,调整R方0.6416