书签分享收藏举报版权申诉 / 23

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 生产经营管理 > 4回归分析文档格式.docx

4回归分析文档格式.docx

文档编号：22859730
上传时间：2023-02-05
格式：DOCX
页数：23
大小：151.50KB

4回归分析文档格式.docx

《4回归分析文档格式.docx》由会员分享，可在线阅读，更多相关《4回归分析文档格式.docx（23页珍藏版）》请在冰豆网上搜索。

4回归分析文档格式.docx

abline（fm）

（4）回归方程的假设检验

1）模型的方差分析

anova（fm）

AnalysisofVarianceTable

Response:

yx$y

DfSumSqMeanSqFvaluePr（>

F）

yx$x16361846361841679.6<

2.2e-16***

Residuals2910985379

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1由于p<

0.05，于是在0.05水平处拒绝原假设，即本例回归系数有统计学意义，x与y间存在直线回归关系。

2）回归系数的显著性检验

summary（fm）

Residuals:

##残差的最小值，0.25分位点，中位数点，0.75分位点和最大值

Min1QMedian3QMax

-76.763-5.627-1.2643.00351.066

##Estimate是参数估计值，Std.Error表示参数的标准差，tvalue为t值，Pr（>

|t|）为p值

EstimateStd.ErrortvaluePr（>

|t|）

（Intercept）6.733584.380031.5370.135##常数项

yx$x0.998240.0243640.983<

2e-16***##一次项

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

19.46on29degreesoffreedom##残差的标准差

MultipleR-squared:

0.983,AdjustedR-squared:

0.9824##R方与调整R方

F-statistic:

1680on1and29DF,p-value:

<

2.2e-16##F值和p值

由于p<

0.05，于是在0.05水平处拒绝原假设，即本例回归系数有统计学意义，x与y间存在回归关系。

注：

本例中

（165.6144^2=27428.1326），当df=1时，t值得平方等于F值（dfe即为t的自由度n-2）。

所以说当自变量只有一个时，方差分析与t检验的结果是等价的。

但在下面的多元分析中，方差分析与t检验的结果并不等价。

（5）预测

当经过检验，回归方程是有意义时，可以用它作预测。

new<

-data.frame（x=700）##输入新的点x=700，这里即时是一个点，也要采用数据框形式

lm.pred<

-predict（fm,new,interval="

prediction"

level=0.95）##给出预测值，interval="

指给出预测区间，level=0.95表示相应概率为0.95

lm.pred##fit为预测值，lwr是95%下限，upr是95%上限

fitlwrupr

1705.5033655.461755.5456

二.多元线性回归分析

例2：

考察财政收入和国内生产总值x1，税收x2，进出口贸易总额x3，经济活动人口x4之间的数量关系，建议多元线性回归方程。

##在d4.4中选取B1：

F32区域，然后拷贝

yX=read.table（"

header=T）

（fm=lm（y~x1+x2+x3+x4,data=yX））

lm（formula=y~x1+x2+x3+x4）

（Intercept）yX$x1yX$x2yX$x3yX$x4

23.5321088-0.00338661.16411500.0002919-0.0437416

于是得到多元线性回归方程：

（3）方程的标准化系数

由于自变量与因变量都是有单位的，从数值上来看，它们样本取值的极差会有很大的差异，均数与标准差也各不相同，所以不能由偏回归系数的大小直接说明对因变量线性影响的大小。

对于这个问题常用变量标准化与计算标准化偏回归系数的方法来处理。

标准化后常数项为0，且各变量的标准差相同，可用偏回归的系数的值来反映各自变量在其他自变量固定时对因变量线性影响的大小，相互之间可进行比较。

常用的统计软件都能给出标准化偏回归系数，但R语言中并不包含计算标准回归系数的函数。

因此需要自编。

library（mvstats）

coef.sd（fm）

$coef.sd

x1x2x3x4

-0.01745136781.04235229720.0009628564-0.0371053994

由标准化偏回归系数可见，税收对财政收入的线性影响最大。

lm（formula=y~x1+x2+x3+x4,data=yX）

-5.0229-2.13540.32971.26396.9690

##系数的t值和p值，系数的显著性检验

（Intercept）23.53210884.59907145.1172.47e-05***

x1-0.00338660.0080749-0.4190.678

x21.16411500.040488928.751<

2e-16***

x30.00029190.00855270.0340.973

x4-0.04374160.0092638-4.7227.00e-05***

2.79on26degreesoffreedom

0.9997,AdjustedR-squared:

0.9997

2.289e+04on4and26DF,p-value:

2.2e-16##方程的F值和p值，方程的显著性检验

模型的p<

0.0001，故本例回归模型是有意义的。

偏回归系数b2，b4的p值都小于0.01，可认为解释变量税收x2和经济活动人口x4显著；

b1，b3的p值大于0.50，不能否定b1=0，b3=0的假设。

可认为国内生产总值x1和进出口贸易总额x3对财政收入y没有显著的影响。

我们可以看到，国内生产总值、经济活动人口所对应的偏回归系数都为负，这与经济现实是不相符的。

出现这种结果的可能原因是这些解释变量之间存在高度的共线性。

-data.frame（x1=30,x2=40,x3=50,x4=100）

level=0.95）

lm.pred

165.6355556.897174.37399

三．回归变量的选择方法

1.全局择优法：

对每组子集，RSS越小、R2越大、校正R2越大、AICBIC越小，模型越好。

library（leaps）##安装包leaps

varsel=regsubsets（y~x1+x2+x3+x4,data=yX）

result=summary（varsel）

data.frame（result$outmat,RSS=result$rss,R2=result$rsq,adjR2=result$adjr2,Cp=result$cp,BIC=result$bic）

x1x2x3x4RSSR2adjR2CpBIC

1

（1）*752.88490.99894380.998907469.745044-205.5777

2

（1）**203.88350.99971400.99969361.198844-242.6410

3

（1）***202.34510.99971610.99968463.001165-239.4418

4

（1）****202.33600.99971620.99967255.000000-236.0092

2.逐步回归法

向前引入法、向后剔除法、逐步筛选法。

fm=lm（yX$y~yX$x1+yX$x2+yX$x3+yX$x4）

fm.step=step（fm,direction="

forward"

）#forward为向前引入法

Start:

AIC=68.15

y~x1+x2+x3+x4

backward"

）#backward为向后引入法

DfSumofSqRSSAIC

-x310.0202.366.156

-x111.4203.766.363

<

none>

202.368.154

-x41173.5375.885.351

-x216433.16635.4174.352

Step:

AIC=66.16

y~x1+x2+x4

-x111.5203.964.390

202.366.156

-x41197.3399.685.253

-x217382.27584.5176.496

AIC=64.39

y~x2+x4

DfSumofSqRSSAIC

20464.39

-x41549753102.89

-x21367655367859294.82

both"

）#both为逐步筛选法

-x310.0202.366.156

-x111.4203.766.363

202.368.154

-x41173.5375.885.351

-x111.5203.964.390

202.366.156

+x310.0202.368.154

-x41197.3399.685.253

20464.390

+x11220266.156

+x31020466.363

-x41549753102.888

-x21367655367859294.825

四．模型的进一步分析

例3：

某大型牙膏制造企业想找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系，从而预测在不同价格和广告费用下的销售量。

为此，收集一下数据。

试根据这些数据建立一个数学模型，分析牙膏销售量与其他因素的关系。

对于大多数顾客来说，在购买同类产品的牙膏时，更多地会关心不同品牌之间的价格差，而不是它们的价格本身。

因此，在研究各个因素对销售量的影响时，用价格差代替公司销售价格各其他厂家平均价格更为合适。

1.模型1

toothpaste<

-data.frame（

X1=c（-0.05,0.25,0.60,0,0.25,0.20,0.15,0.05,-0.15,0.15,

0.20,0.10,0.40,0.45,0.35,0.30,0.50,0.50,0.40,-0.05,

-0.05,-0.10,0.20,0.10,0.50,0.60,-0.05,0,0.05,0.55）,

X2=c（5.50,6.75,7.25,5.50,7.00,6.50,6.75,5.25,5.25,6.00,

6.50,6.25,7.00,6.90,6.80,6.80,7.10,7.00,6.80,6.50,

6.25,6.00,6.50,7.00,6.80,6.80,6.50,5.75,5.80,6.80）,

Y=c（7.38,8.51,9.52,7.50,9.33,8.28,8.75,7.87,7.10,8.00,

7.89,8.15,9.10,8.86,8.90,8.87,9.26,9.00,8.75,7.95,

7.65,7.27,8.00,8.50,8.75,9.21,8.27,7.67,7.93,9.26）

）

lm.sol<

-lm（Y~X1+X2,data=toothpaste）##建立y=b0+b1*x1+b2*x2的线性模型

summary（lm.sol）##模型检验

lm（formula=Y~X1+X2,data=toothpaste）

-0.49779-0.12031-0.008670.110840.58106

##系数的显著性检验

（Intercept）4.40750.72236.1021.62e-06***

X11.58830.29945.3041.35e-05***

X20.56350.11914.7336.25e-05***

0.2383on27degreesoffreedom

0.886,AdjustedR-squared:

0.8776

105on2and27DF,p-value:

1.845e-13##方程的显著性检验

计算结果通过了回归系数检验和回归方程检验，由此得到销售量与价格差与广告费之间的关系为：

y=4.4075+1.5883x1+0.5635x2

为了进一步分析回归模型，我们画出y与x1和y与x2散点图。

从散点图上可以看出，y与x1用直线拟合较好，y与x2则用二次曲线拟合较好。

绘制上两图的命令如下：

##绘制y与x1的散点图和回归直线

attach（toothpaste）

plot（Y~X1）;

abline（lm（Y~X1））

##绘制y与x2的散点图和回归曲线

lm2.sol<

-lm（Y~X2+I（X2^2））

x<

-seq（min（X2）,max（X2）,len=200）

y<

-predict（lm2.sol,data.frame（X2=x））

plot（Y~X2）;

lines（x,y）

其中I（X2^2）表示模型中x2的平方项。

我们作相应的回归分析：

2.模型2

lm.new<

-update（lm.sol,.~.+I（X2^2））##将二次项加入回归方程中Y~X1+X2+I（X2^2）

summary（lm.new）

lm（formula=Y~X1+X2+I（X2^2）,data=toothpaste）

-0.40330-0.14509-0.030350.154880.46602

（Intercept）17.32445.64153.0710.00495**

X11.30700.30364.3050.00021***

X2-3.69561.8503-1.9970.05635.

I（X2^2）0.34860.15122.3060.02934*

0.2213on26degreesoffreedom

0.9054,AdjustedR-squared:

0.8945

82.94on3and26DF,p-value:

1.944e-13

此时，模型残差的标准差有所下降，R2有所上升。

说明模型修正合理。

模型检验的p值1.944e-13<

0.05，模型显著。

系数显著性检验中，x2的系数的p值>

0.05。

进一步修改模型，去掉x2项：

3.模型3

lm2.new<

-update（lm.new,.~.-X2）###-x2表示去掉x2这一项

summary（lm2.new）

lm（formula=Y~X1+I（X2^2）,data=toothpaste）

-0.4859-0.1141-0.00460.10530.5592

（Intercept）6.076670.3553117.1025.17e-16***

X11.524980.298595.1072.28e-05***

I（X2^2）0.047200.009524.9583.41e-05***

0.2332on27degreesoffreedom

0.8909,AdjustedR-squared:

0.8828

110.2on2and27DF,p-value:

1.028e-13

此模型虽然通过了模型的显著性检验和系数的显著性检验，但与上一模型对比来看，残差的标准差上升，R2下降，这又是此模型的不足之处。

做进一步修正，考虑x1与x2的交互作用：

4.模型4

lm3.new<

-update（lm.new,.~.+X1*X2）###添加交互项X1*X2

summary（lm3.new）

lm（formula=Y~X1+X2+I（X2^2）+X1:

X2,data=toothpaste）

-0.43725-0.117540.004890.122630.38410

（Intercept）29.11337.48323.8900.000656***

X111.13424.44592.5040.019153*

X2-7.60802.4691-3.0810.004963**

I（X2^2）0.67120.20273.3120.002824**

X1:

X2-1.47770.6672-2.2150.036105*

0.2063on25degreesoffreedom

0.9209,AdjustedR-squared:

0.9083

72.78on4and25DF,p-value:

2.107e-13

模型通过了模型的显著性检验和系数的显著性检验，并且残差的标准差减少，R2增加。

因此，最终模型为：

五．logistic模型

R中logistic模型的公式为：

fm<

-glm（formula,family=binomial（link=logit）,data=data.frame）

式中的link=logit可以不写，因为logit是二项分布连接函数是缺省状态。

在用函数glm（）作logisti

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 回归分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：4回归分析文档格式.docx
链接地址：https://www.bdocx.com/doc/22859730.html

4回归分析文档格式.docx

热门标签