4回归分析文档格式.docx
- 文档编号:22859730
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:23
- 大小:151.50KB
4回归分析文档格式.docx
《4回归分析文档格式.docx》由会员分享,可在线阅读,更多相关《4回归分析文档格式.docx(23页珍藏版)》请在冰豆网上搜索。
abline(fm)
(4)回归方程的假设检验
1)模型的方差分析
anova(fm)
AnalysisofVarianceTable
Response:
yx$y
DfSumSqMeanSqFvaluePr(>
F)
yx$x16361846361841679.6<
2.2e-16***
Residuals2910985379
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1由于p<
0.05,于是在0.05水平处拒绝原假设,即本例回归系数有统计学意义,x与y间存在直线回归关系。
2)回归系数的显著性检验
summary(fm)
Residuals:
##残差的最小值,0.25分位点,中位数点,0.75分位点和最大值
Min1QMedian3QMax
-76.763-5.627-1.2643.00351.066
##Estimate是参数估计值,Std.Error表示参数的标准差,tvalue为t值,Pr(>
|t|)为p值
EstimateStd.ErrortvaluePr(>
|t|)
(Intercept)6.733584.380031.5370.135##常数项
yx$x0.998240.0243640.983<
2e-16***##一次项
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
19.46on29degreesoffreedom##残差的标准差
MultipleR-squared:
0.983,AdjustedR-squared:
0.9824##R方与调整R方
F-statistic:
1680on1and29DF,p-value:
<
2.2e-16##F值和p值
由于p<
0.05,于是在0.05水平处拒绝原假设,即本例回归系数有统计学意义,x与y间存在回归关系。
注:
本例中
(165.6144^2=27428.1326),当df=1时,t值得平方等于F值(dfe即为t的自由度n-2)。
所以说当自变量只有一个时,方差分析与t检验的结果是等价的。
但在下面的多元分析中,方差分析与t检验的结果并不等价。
(5)预测
当经过检验,回归方程是有意义时,可以用它作预测。
new<
-data.frame(x=700)##输入新的点x=700,这里即时是一个点,也要采用数据框形式
lm.pred<
-predict(fm,new,interval="
prediction"
level=0.95)##给出预测值,interval="
指给出预测区间,level=0.95表示相应概率为0.95
lm.pred##fit为预测值,lwr是95%下限,upr是95%上限
fitlwrupr
1705.5033655.461755.5456
二.多元线性回归分析
例2:
考察财政收入和国内生产总值x1,税收x2,进出口贸易总额x3,经济活动人口x4之间的数量关系,建议多元线性回归方程。
##在d4.4中选取B1:
F32区域,然后拷贝
yX=read.table("
header=T)
(fm=lm(y~x1+x2+x3+x4,data=yX))
lm(formula=y~x1+x2+x3+x4)
(Intercept)yX$x1yX$x2yX$x3yX$x4
23.5321088-0.00338661.16411500.0002919-0.0437416
于是得到多元线性回归方程:
(3)方程的标准化系数
由于自变量与因变量都是有单位的,从数值上来看,它们样本取值的极差会有很大的差异,均数与标准差也各不相同,所以不能由偏回归系数的大小直接说明对因变量线性影响的大小。
对于这个问题常用变量标准化与计算标准化偏回归系数的方法来处理。
标准化后常数项为0,且各变量的标准差相同,可用偏回归的系数的值来反映各自变量在其他自变量固定时对因变量线性影响的大小,相互之间可进行比较。
常用的统计软件都能给出标准化偏回归系数,但R语言中并不包含计算标准回归系数的函数。
因此需要自编。
library(mvstats)
coef.sd(fm)
$coef.sd
x1x2x3x4
-0.01745136781.04235229720.0009628564-0.0371053994
由标准化偏回归系数可见,税收对财政收入的线性影响最大。
lm(formula=y~x1+x2+x3+x4,data=yX)
-5.0229-2.13540.32971.26396.9690
##系数的t值和p值,系数的显著性检验
(Intercept)23.53210884.59907145.1172.47e-05***
x1-0.00338660.0080749-0.4190.678
x21.16411500.040488928.751<
2e-16***
x30.00029190.00855270.0340.973
x4-0.04374160.0092638-4.7227.00e-05***
2.79on26degreesoffreedom
0.9997,AdjustedR-squared:
0.9997
2.289e+04on4and26DF,p-value:
2.2e-16##方程的F值和p值,方程的显著性检验
模型的p<
0.0001,故本例回归模型是有意义的。
偏回归系数b2,b4的p值都小于0.01,可认为解释变量税收x2和经济活动人口x4显著;
b1,b3的p值大于0.50,不能否定b1=0,b3=0的假设。
可认为国内生产总值x1和进出口贸易总额x3对财政收入y没有显著的影响。
我们可以看到,国内生产总值、经济活动人口所对应的偏回归系数都为负,这与经济现实是不相符的。
出现这种结果的可能原因是这些解释变量之间存在高度的共线性。
-data.frame(x1=30,x2=40,x3=50,x4=100)
level=0.95)
lm.pred
165.6355556.897174.37399
三.回归变量的选择方法
1.全局择优法:
对每组子集,RSS越小、R2越大、校正R2越大、AICBIC越小,模型越好。
library(leaps)##安装包leaps
varsel=regsubsets(y~x1+x2+x3+x4,data=yX)
result=summary(varsel)
data.frame(result$outmat,RSS=result$rss,R2=result$rsq,adjR2=result$adjr2,Cp=result$cp,BIC=result$bic)
x1x2x3x4RSSR2adjR2CpBIC
1
(1)*752.88490.99894380.998907469.745044-205.5777
2
(1)**203.88350.99971400.99969361.198844-242.6410
3
(1)***202.34510.99971610.99968463.001165-239.4418
4
(1)****202.33600.99971620.99967255.000000-236.0092
2.逐步回归法
向前引入法、向后剔除法、逐步筛选法。
fm=lm(yX$y~yX$x1+yX$x2+yX$x3+yX$x4)
fm.step=step(fm,direction="
forward"
)#forward为向前引入法
Start:
AIC=68.15
y~x1+x2+x3+x4
backward"
)#backward为向后引入法
DfSumofSqRSSAIC
-x310.0202.366.156
-x111.4203.766.363
<
none>
202.368.154
-x41173.5375.885.351
-x216433.16635.4174.352
Step:
AIC=66.16
y~x1+x2+x4
-x111.5203.964.390
202.366.156
-x41197.3399.685.253
-x217382.27584.5176.496
AIC=64.39
y~x2+x4
DfSumofSqRSSAIC
20464.39
-x41549753102.89
-x21367655367859294.82
both"
)#both为逐步筛选法
-x310.0202.366.156
-x111.4203.766.363
202.368.154
-x41173.5375.885.351
-x111.5203.964.390
202.366.156
+x310.0202.368.154
-x41197.3399.685.253
20464.390
+x11220266.156
+x31020466.363
-x41549753102.888
-x21367655367859294.825
四.模型的进一步分析
例3:
某大型牙膏制造企业想找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测在不同价格和广告费用下的销售量。
为此,收集一下数据。
试根据这些数据建立一个数学模型,分析牙膏销售量与其他因素的关系。
对于大多数顾客来说,在购买同类产品的牙膏时,更多地会关心不同品牌之间的价格差,而不是它们的价格本身。
因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格各其他厂家平均价格更为合适。
1.模型1
toothpaste<
-data.frame(
X1=c(-0.05,0.25,0.60,0,0.25,0.20,0.15,0.05,-0.15,0.15,
0.20,0.10,0.40,0.45,0.35,0.30,0.50,0.50,0.40,-0.05,
-0.05,-0.10,0.20,0.10,0.50,0.60,-0.05,0,0.05,0.55),
X2=c(5.50,6.75,7.25,5.50,7.00,6.50,6.75,5.25,5.25,6.00,
6.50,6.25,7.00,6.90,6.80,6.80,7.10,7.00,6.80,6.50,
6.25,6.00,6.50,7.00,6.80,6.80,6.50,5.75,5.80,6.80),
Y=c(7.38,8.51,9.52,7.50,9.33,8.28,8.75,7.87,7.10,8.00,
7.89,8.15,9.10,8.86,8.90,8.87,9.26,9.00,8.75,7.95,
7.65,7.27,8.00,8.50,8.75,9.21,8.27,7.67,7.93,9.26)
)
lm.sol<
-lm(Y~X1+X2,data=toothpaste)##建立y=b0+b1*x1+b2*x2的线性模型
summary(lm.sol)##模型检验
lm(formula=Y~X1+X2,data=toothpaste)
-0.49779-0.12031-0.008670.110840.58106
##系数的显著性检验
(Intercept)4.40750.72236.1021.62e-06***
X11.58830.29945.3041.35e-05***
X20.56350.11914.7336.25e-05***
0.2383on27degreesoffreedom
0.886,AdjustedR-squared:
0.8776
105on2and27DF,p-value:
1.845e-13##方程的显著性检验
计算结果通过了回归系数检验和回归方程检验,由此得到销售量与价格差与广告费之间的关系为:
y=4.4075+1.5883x1+0.5635x2
为了进一步分析回归模型,我们画出y与x1和y与x2散点图。
从散点图上可以看出,y与x1用直线拟合较好,y与x2则用二次曲线拟合较好。
绘制上两图的命令如下:
##绘制y与x1的散点图和回归直线
attach(toothpaste)
plot(Y~X1);
abline(lm(Y~X1))
##绘制y与x2的散点图和回归曲线
lm2.sol<
-lm(Y~X2+I(X2^2))
x<
-seq(min(X2),max(X2),len=200)
y<
-predict(lm2.sol,data.frame(X2=x))
plot(Y~X2);
lines(x,y)
其中I(X2^2)表示模型中x2的平方项。
我们作相应的回归分析:
2.模型2
lm.new<
-update(lm.sol,.~.+I(X2^2))##将二次项加入回归方程中Y~X1+X2+I(X2^2)
summary(lm.new)
lm(formula=Y~X1+X2+I(X2^2),data=toothpaste)
-0.40330-0.14509-0.030350.154880.46602
(Intercept)17.32445.64153.0710.00495**
X11.30700.30364.3050.00021***
X2-3.69561.8503-1.9970.05635.
I(X2^2)0.34860.15122.3060.02934*
0.2213on26degreesoffreedom
0.9054,AdjustedR-squared:
0.8945
82.94on3and26DF,p-value:
1.944e-13
此时,模型残差的标准差有所下降,R2有所上升。
说明模型修正合理。
模型检验的p值1.944e-13<
0.05,模型显著。
系数显著性检验中,x2的系数的p值>
0.05。
进一步修改模型,去掉x2项:
3.模型3
lm2.new<
-update(lm.new,.~.-X2)###-x2表示去掉x2这一项
summary(lm2.new)
lm(formula=Y~X1+I(X2^2),data=toothpaste)
-0.4859-0.1141-0.00460.10530.5592
(Intercept)6.076670.3553117.1025.17e-16***
X11.524980.298595.1072.28e-05***
I(X2^2)0.047200.009524.9583.41e-05***
0.2332on27degreesoffreedom
0.8909,AdjustedR-squared:
0.8828
110.2on2and27DF,p-value:
1.028e-13
此模型虽然通过了模型的显著性检验和系数的显著性检验,但与上一模型对比来看,残差的标准差上升,R2下降,这又是此模型的不足之处。
做进一步修正,考虑x1与x2的交互作用:
4.模型4
lm3.new<
-update(lm.new,.~.+X1*X2)###添加交互项X1*X2
summary(lm3.new)
lm(formula=Y~X1+X2+I(X2^2)+X1:
X2,data=toothpaste)
-0.43725-0.117540.004890.122630.38410
(Intercept)29.11337.48323.8900.000656***
X111.13424.44592.5040.019153*
X2-7.60802.4691-3.0810.004963**
I(X2^2)0.67120.20273.3120.002824**
X1:
X2-1.47770.6672-2.2150.036105*
0.2063on25degreesoffreedom
0.9209,AdjustedR-squared:
0.9083
72.78on4and25DF,p-value:
2.107e-13
模型通过了模型的显著性检验和系数的显著性检验,并且残差的标准差减少,R2增加。
因此,最终模型为:
五.logistic模型
R中logistic模型的公式为:
fm<
-glm(formula,family=binomial(link=logit),data=data.frame)
式中的link=logit可以不写,因为logit是二项分布连接函数是缺省状态。
在用函数glm()作logisti
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析