1、应用回归分析习题答案SAS程序教案资料2.16 (1) 绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?程序如下: 结果:表一:由表一,可得可以用直线回归描述两者的关系。(2)建立y对x的线性回归,p r cli clm结果表二:由表二可得,F=112.81,P0.0001,可知,模型的拟合数据较好。表三:又R方=0.6972,故知因变量y总体变异中69.72%被自变量x所解释。表四:由表四P|t|Intercept1-348.28017176.45922-1.970.0959x113.754041.933321.940.1002x217.100712.880282.470.0488x
2、3112.4474710.569331.180.2835回归方程为:(3)均方根误差23.44188R 方0.8055因变量均值231.50000调整 R 方0.7083变异系数10.12608样本决定系数R方为0.8055 则回归方程显著;(4)方差分析源自由度平方和均方F 值PrF模型3136554551.789848.280.0149误差63297.13048549.52175校正合计916953F=8.28 ,P=0.0149 模型有显著性意义;(5)参数估计值变量自由度参数估计值标准误差t值Pr|t|Intercept1-348.28017176.45922-1.970.0959x1
3、13.754041.933321.940.1002x217.100712.880282.470.0488x3112.4474710.569331.180.2835工业总产值的P值为0.1002 在显著性水平0.05 上对y货运总量不显著;农业总产值的P值为0.0488 在显著性水平0.05上对y货运总量显著;居民非商品支出P值为0.2835在显著性水平0.05上对y货运总量不显著;(6)剔除重新建立回归方程proc reg data=huoyun;model y=x1 x2/clb;run;方差分析源自由度平方和均方F 值PrF模型2128936446.5995011.120.0067误差74
4、059.30099579.90014校正合计916953F值为11.12 ,P值为0.0067 模型高度显著;参数估计值变量自由度参数估计值标准误差t值Pr|t|Intercept1-459.62365153.05757-3.000.0199x114.675631.816072.570.0368x218.970962.468463.630.0084工业总产值的P值为0.0368 在显著性水平0.05 上对y货运总量显著;农业总产值的P值为0.0084 在显著性水平0.05上对y货运总量显著;(7)参数估计值变量自由度参数估计值标准误差t值Pr|t|95% 置信限Intercept1-459.6
5、2365153.05757-3.000.0199-821.54730-97.70001x114.675631.816072.570.03680.381308.96996x218.970962.468463.630.00843.1339814.80794的回归系数置信区间为(0.38130,8.9996)的回归系数置信区间为(3.13398,14.80794)4.9(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。程序:data yd;input x y;cards;679 0.79 292 0.44 1012 0.56 493 0.79 582 2.71156 3.64 997 4
6、.73 2189 9.5 1097 5.34 2078 6.851818 5.84 1700 5.21 747 3.25 2030 4.43 1643 3.16414 0.5 354 0.17 1276 1.88 745 0.77 435 1.39 540 0.56 874 1.56 1543 5.28 1029 0.64 710 4 1434 0.31 837 4.21748 4.88 1381 3.48 1428 7.58 1255 2.63 1777 4.99 370 0.59 2316 8.19 1130 4.79 463 0.51 770 1.74 724 4.1 808 3.94
7、790 0.96 783 3.29 406 0.44 1242 3.24658 2.14 1746 5.71 468 0.64 1114 1.90 413 0.511787 8.33 3560 14.94 1495 5.11 2221 3.85 1526 3.93;proc plot data=yd;plot y*x=*;run;结果由散点图可知:Y和X有线性关系,故可建立回归方程。程序proc reg data=yd ;model y=x/r;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;结果:
8、由方差分析可得:P0.0655大于0.05,故常数项不显著.需要除去常数项重新拟合方程。程序proc reg data=yd;model y=x/noint;run;结果:由方差分析得:P0.05,所以该回归方程显著,而且F值较有常数项时更大,所以无常数项时拟合方程更好;R方=0.8704,调整R方为0.8679,回归方程的拟合度有较大幅度提高;由参数估计:参数P值均0.05,参数显著有效;所以拟合方程为:y=0.00314x残差散点图如下:(2) 判断该问题是否存在异方差。由残差散点图可以得:误差随X的增加而波动幅度增加,呈大喇叭的形状,因此认为方差项存在异方差.故利用等级相关系数法判断:p
9、roc reg data=yd;model y=x/r noint;output out=out1 r=residual;run;data out2;set out1;z=abs(residual);run;proc corr data=out2 spearman;var x z;run;结果:残差绝对值与xi的等级相关系数rs=0.21271,对应的P值=0.126,认为残差绝对值与自变量xi显著相关,存在异方差.(2)若存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。由(2)结论存在异方差,则程序:data a;set yd;array row10 w1-w10;array p10
10、(-2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5);do i=1 to 10;rowi=1/x*pi;end;run;proc print;run;proc reg data=a;model y=x/r;weight w1;output out=out1 r=residual;run;proc gplot data=out1;plot residual*x;run;结果;由方差分析:pF模型1110.59832110.5983211648.6|t|95% 置信限Intercept1-1.434830.24196-5.93.0001-1.94316-0.92650x10.17
11、6160.00163107.93卡方21.840.3978Durbin-Watson D0.663观测数20第一阶自相关小饰品店往往会给人零乱的感觉,采用开架陈列就会免掉这个麻烦。“漂亮女生”像是个小超市,同一款商品色彩丰富地挂了几十个任你挑,拿上东西再到收银台付款。这也符合女孩子精挑细选的天性,更保持了店堂长盛不衰的人气。0.644“碧芝”最吸引人的是那些小巧的珠子、亮片等,都是平日里不常见的。据店长梁小姐介绍,店内的饰珠有威尼斯印第安的玻璃珠、秘鲁的陶珠、奥地利的施华洛世奇水晶、法国的仿金片、日本的梦幻珠等,五彩缤纷,流光异彩。按照饰珠的质地可分为玻璃、骨质、角质、陶制、水晶、仿金、木制等
12、种类,其造型更是千姿百态:珠型、圆柱型、动物造型、多边形、图腾形象等,美不胜收。全部都是进口的,从几毛钱一个到几十元一个的珠子,做一个成品饰物大约需要几十元,当然,还要决定于你的心意 尽管售价不菲,却仍没挡住喜欢它的人。查DW分布表可得临界值和分别为1.20和1.41,由于DW值=0.663小于,故模型存在序列正自相关性.价格便宜些 服务热情周到 店面装饰有个性 商品新颖多样(3)(4)(4) 创新能力薄弱用迭代法处理序列相关,并建立回归方程data aa;标题:手工制作坊 2004年3月18日set out;ro=1-0.5*0.663;大学生购买力有限,即决定了要求商品能价廉物美,但更注重
13、的还是在购买过程中对精神文化爱好的追求,满足心理需求。y_t_1=y-ro*lag1(y);开了连锁店,最大的好处是让别人记住你。“漂亮女生”一律采用湖蓝底色的装修风格,简洁、时尚、醒目。“品牌效应”是商家梦寐以求的制胜法宝 。x_t_1=xro*lag1(x);run;3 www。oh/ov。com/teach/student/shougong/proc print data=aa;(1)位置的优越性run;proc reg data=aa;2、传统文化对大学生饰品消费的影响model y_t_1=x_t_1/clb p r spec DW;run;结果如下:方差分析源自由度平方和均方F 值
14、PrF模型113.1333013.133302467.41|t|95% 置信限Intercept1-0.300060.17763-1.690.1094-0.674830.07471x_t_110.172680.0034849.67卡方20.870.6467Durbin-Watson D1.360观测数19第一阶自相关0.293又由DW=1.306,查DW,n=19,k=2.可知和分别为1.18和1.40,DW=1.360在和之间,所以迭代法建立的回归方程的误差项无自相关.proc reg data=aa;model y_t_1=x_t_1/noint clb p r spec DW;run;结
15、果如下:方差分析源自由度平方和均方F 值PrF模型11380.746041380.74604235188|t|95% 置信限x_t_110.166840.00034402484.96F模型12.115932.11593381.34|t|Intercept10.032890.025851.270.2203difx10.160960.0082419.53.0001调整R方=0.9548,方程拟合度较高,一阶差分法处理数据后建立的回归模型通过了显著性检验,回归方程为:其中,.Durbin-Watson D1.480观测数19第一阶自相关0.253DW=1.480,查DW,n=19,k=2.可知和分别
16、为1.18和1.40,DW=1.480在1.40和4-1.40之间,误差项之间无自相关.(6)比较以上各方法所建回归方程的优良性如果回归模型不存在序列相关,那么普通最小二乘法比迭代法和一阶差分法操作起来更简便,但是当回归模型存在序列相关性时,普通最小二乘法所建立的回归方程就不适用了,迭代法或一阶差分法更为适用。而一阶差分法的应用条件是自相关系数P=1,当P接近1时,一阶差分法比迭代法好,当原模型存在较高程度的一阶自相关的情况时,一般使用一阶差分法而不用迭代法。因为一阶差分法比迭代法简单而且,迭代法需要用样本估计自相关系数p,对p的估计误差会影响迭代法的使用效率,迭代法的算法时间复杂度比一阶差分
17、的高,在效率上不如一阶差分好。4.14(1) 用最小二乘法建立回归方程,用残差图及DW检验诊断序列的自相关性首先建立数据集data a;input y x1 x2;cards;893.93 5 2921091.27 5 2521229.97 5 2671045.85 5 379997.24 5 3181495.14 6 3931200.56 5 331747.24 4 204866.43 5 266603 5 253343.52 5 315472.1 6 271171.79 4 166135.79 4 204925.95 5 3351574.01 5 3521405.33 5 274971.27 4 3331165.2 5 302597.85 4 324490.34 4 327709.59 5 206987.3 5 310954.6 6 3061216.89 6 3501491.52 5 275668.3 4 173915.03 5 360 565.92 4 3401