书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 医学 > 线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx

线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx

文档编号：25848504
上传时间：2023-06-16
格式：DOCX
页数：22
大小：219.14KB

《线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx》由会员分享，可在线阅读，更多相关《线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx（22页珍藏版）》请在冰豆网上搜索。

线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx

线性回归是统计分析方法中最常用的方法之一如果所研究的现象有

线性回归是统计分析方法中最常用的方法之一。

如果所研究的现象有若干个影响因素，且这些因素对现象的综合影响是线性的，则可以使用线性回归的方法建立现象（因变量）与影响因素（自变量）之间的线性函数关系式。

由于多元线性回归的计算量比较大，所以有必要应用统计分析软件实现。

这一节将专门介绍SPSS软件的线性回归分析的操作方法，包括求回归系数，给出回归模型的各项检验统计量值及相应的概率，对输出结果的分析等相关内容。

§6.1线性回归模型假设条件与模型的各种检验

1、线性回归的假设理论

（1）正态性假设：

即所研究的变量均服从正态分布；

（2）等方差假设：

即各变量总体的方差是相等的；

（3）独立性假设,即各变量之间是相互独立的；

（4）残差项无自相关性，即误差项之间互不相关，Cov（i，j）=0

2、线性回归模型的检验项目

（1）回归系数的检验（t检验）。

（2）回归方程的检验（F检验）。

（3）拟合程度判定（可决系数R2）。

（4）D.W检验（残差项是否自相关）。

（5）共线性检验（多元线性回归）。

（6）残差图示分析（判断异方差性和残差序列自相关）。

§6.2线性回归分析的具体步骤

SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear。

如图3.9所示。

下面通过例题介绍线性回归分析的操作过程。

图3.9Regression分析功能菜单

例3.仍然用例2的数据，考察火柴销售量与各影响因素之间的相关关系，建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型，通过对模型的分析，找出合适的线性回归方程。

解：

建立线性回归模型的具体操作步骤如下：

1、打开数据文件SY-9，单击AnalyzeRegressionLinear打开Linear对话框如图3.10所示。

2、从左边框中选择因变量Y进入Dependent框内，选择一个或多个自变量进入Independent框内。

从Method框内下拉式菜单中选择回归分析方法，有强行进入法（Enter），消去法（Remove），向前选择法（Forward），向后剔除法（Backward）及逐步回归法（Stepwise）五种。

本例中选择逐步回归法（Stepwise）。

图3.10LinearRegression对话框

3、单击Statistics，打开LinearRegression：

Statistics对话框，可以选择输出的统计量如图3.11所示。

●RegressionCoefficients栏，回归系数选项栏。

Estimates（系统默认）:

输出回归系数的相关统计量：

包括回归系数，回归系数标准误、标准化回归系数、回归系数检验统计量（t值）及相应的检验统计量概率的P值（sig）。

本例中只选择此项。

Confidenceintervals:

输出每一个非标准化回归系数95％的置信区间。

Covariancematrix:

输出协方差矩阵。

●与模型拟合及拟合效果有关的选择项。

Modelfit是默认项。

能够输出复相关系数R、R2及R2修正值，估计值的标准误，方差分析表。

Rsquaredchange:

引入或剔除一个变量时，R2的变化。

Descriptives:

基本统计描述。

PartandPartialcorrelations：

相关系数

Correlations

共线性统计CollinearityStatistics

B

Std.Error

Beta

单相关Zero-order

偏相关Partial

Part

容忍度

Tolerance

方差膨胀因子VIF

1

（Constant）

13.392

1.999

6.698

.000

卷烟销量（万箱）

.320

.048

.879

6.640

.000

.879

1.000

2

（Constant）

17.240

.545

31.647

.000

卷烟销量（万箱）

.315

.012

.865

27.347

.000

.879

.992

.865

.999

1.001

打火石销量（百万粒）

-.243

.017

-.465

-14.689

.000

-.490

-.973

-.464

.999

1.001

3

（Constant）

17.420

.394

44.243

.000

卷烟销量（万箱）

.254

.019

.698

13.228

.000

.879

.970

.300

.185

5.417

打火石销量（百万粒）

-.243

.012

-.465

-20.526

.000

-.490

-.987

-.465

.999

1.001

煤气户数（万户）

.049

.014

.185

3.516

.005

.826

.727

.080

.185

5.415

aDependentVariable:

火柴销量（万件）

表3.4（c）中的Model栏中，模型1是先将卷烟销量作为自变量进入模型，模型2将卷烟销量与打火石销量两个自变量进入模型，模型3是将卷烟、打火石和煤气户数三个自变量进入模型。

第四个自变量蚊香销量没有通过检验自动剔除。

回归系数表的输出结果可以看出，回归系数都通过检验，模型中自变量与因变量的偏相关系数都在0.7以上，说明进入模型的自变量对因变量的影响都比较显著。

由最后两列的容忍度Tolerance和方差膨胀因子VIF的值来看，自变量之间不存在强烈的共线性。

表3.4（d）相关系数表

Correlations

火柴销量（万件）

煤气户数（万户）

卷烟销量（万箱）

蚊香销量（十万盒）

打火石销量（百万粒）

PearsonCorrelation

火柴销量（万件）

1.000

.826

.879

.808

-.490

煤气户数（万户）

.826

1.000

.903

.949

-.023

卷烟销量（万箱）

.879

.903

1.000

.903

-.029

蚊香销量（十万盒）

.808

.949

.903

1.000

-.007

打火石销量（百万粒）

-.490

-.023

-.029

-.007

1.000

Sig.（1-tailed）

火柴销量（万件）

.

.000

.032

煤气户数（万户）

.000

.

.000

.468

卷烟销量（万箱）

.000

.

.000

.458

蚊香销量（十万盒）

.000

.

.490

打火石销量（百万粒）

.032

.468

.458

.490

.

N

火柴销量（万件）

15

煤气户数（万户）

15

卷烟销量（万箱）

15

蚊香销量（十万盒）

15

打火石销量（百万粒）

15

相关分析表中表示的相关系数是全部变量（自变量与因变量）的两两变量之间的简单相关系数和相关性检验。

表3.4（e）残差统计

残差统计表3.4（e）表示了预测值、残差、标准化预测值和标准化残差的特征值。

其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。

表3.4（f）共线性诊断表：

共线性诊断表中第二列是特征值，第三列是条件指数，最后一列是方差比。

最大的条件指数小于20，说明自变量之间不存在比较强烈的共线性。

表3.4（g）奇异值表（标准化残差值大于2）

奇异值表3.4（g）中依次是序号，标准化残差值，实际观测值、预测值及残差值。

表中给出的两个个体数据的标准化残差（数据号为12和14）超出了2。

表3.4（h）标准化残差图：

由图中可以看出，残差图中的点分布是随机的，没有出现趋势性，所以回归模型是有效的。

最终得回归模型为：

§6.3曲线估计

上节介绍了线性回归模型的分析和检验方法。

如果某对变量数据的散点图不是直线，而是某种曲线的形式时，可以利用曲线估计的方法为数据寻求一条合适的曲线，也可用变量代换的方法将曲线方程变为直线方程，用线性回归模型进行分析和预测。

SPSS提供了多种曲线方程。

列出表3.5如下：

表3.5可化为线性方程的曲线方程

函数名称

方程形式

相应的线性回归方程

Linear线性函数

Quadratic二次多项式

Compound复合模型

Growth生长曲线

Logarithmic对数函数

Cubic三次多项式

SS曲线

Exponential指数函数

Inverse逆函数

Power幂函数

Logistic逻辑曲线

这里以例题说明曲线拟合的具体操作方法。

例4：

表3.6表示的是全国1990年至2002年人均消费支出与教育支出的统计数据，试以人均消费性支出为解释变量，教育支出作为被解释变量，拟合用一条合适的函数曲线。

表3.6人均消费支出与教育支出数据表（见参考文献[3]）

年份

人均消费性支出（元）

教育支出（元）

1990

1627.64

38.24

1991

1854.22

47.91

1992

2203.6

57.56

1993

3138.56

71.00

1994

4442.09

153.98

1995

5565.68

194.62

1996

6544.73

307.95

1997

7188.71

419.19

1998

7911.94

542.78

1999

7493.31

556.93

2000

7997.37

656.28

2001

9463.07

1091.85

2002

9396.45

1062.13

解：

首先根据上表建立数据SY-10，作出人均消费支出与教育支出的散点图3.14如下：

图3.14人均消费与教育支出的散点图

由上面图形可以看出，两个变量的散点图为增长的曲线形式，故选择合适的函数进行曲线估计。

具体操作如下：

1、单击AnalyzeRegressionCurveEstimation打开CurveEstimation对话框。

如图3.15所示：

图3.15CurveEstimation曲线估计对话框

2、选择估计曲线：

SPSS有多条曲线形式供选择。

根据散点图，本例中选择Quadratic,Power，和Compound曲线进行对比分析。

3、单击Save按纽，打开Save对话框如图3.16所示。

图3.16CurveEstimation：

Save对话框

选择需要保存到数据表中的项目。

在SaveVariables栏中，复选项依次是：

PredictedValues预测值、Residuals残差、Predictionintervals预测区间，可以在下方框中选择置信度，默认值为95%。

本例中不作选择。

4、所有选择完成后，单击OK，得到输出结果如表3.7.：

表3.7曲线估计输出表与曲线图

Independent:

X

决定系数自由度F值P值回归系数

DependentMthRsqd.f.FSigfb0b1b2

YQUA.98710382.64.000252.698-.14752.5E-05

YCOM.995112086.35.00020.95501.0004

YPOW.95411229.58.0003.6E-051.8460

从表中可以看出，可决系数接近1的模型是Com复合函数，同时也可通过图形验证这三个模型对观察值的拟合程度。

下面对以上三个模型进一步分析。

在主对话框的下方选择输出方差分析表DisplayAMOVAtable,可得到方差分析表的详细分析结果如表3.8所示：

表3.8曲线估计及方差分析表

Dependentvariable..YMethod..QUADRATI二次多项式

复相关指数MultipleR.99353

可决系数RSquare.98710

修正的可决系数AdjustedRSquare.98452

标准误StandardError45.70690

AnalysisofVariance:

方差分析表

自由度平方和均方

DFSumofSquaresMeanSquare

Regression21598766.0799383.00

Residuals1020891.22089.12

F（检验统计量）=382.64096SignifF（假设检验P值）=.0000

--------------------VariablesintheEquation--------------------

变量回归系数标准误标准化系数T值P值

VariableBSEBBetaTSigT

X-.147527.025041-1.134958-5.892.0002

X**22.46018091E-052.2722E-062.08579710.827.0000

（Constant）252.69789057.7922484.373.0014

_

Dependentvariable..YMethod..COMPOUND复合函数

ListwiseDeletionofMissingData

MultipleR.99737

RSquare.99476

AdjustedRSquare.99428

StandardError.09002

AnalysisofVariance:

DFSumofSquaresMeanSquare

Regression116.90528916.905289

Residuals11.089131.008103

F=2086.35111SignifF=.0000

--------------------VariablesintheEquation--------------------

VariableBSEBBetaTSigT

X1.0004209.1977E-062.711154108768.23.0000

（Constant）20.9550191.22613917.090.0000

_

Dependentvariable..YMethod..POWER幂函数

ListwiseDeletionofMissingData

MultipleR.97687

RSquare.95428

AdjustedRSquare.95012

StandardError.26578

AnalysisofVariance:

DFSumofSquaresMeanSquare

Regression116.21738716.217387

Residuals11.777033.070639

F=229.58009SignifF=.0000

--------------------VariablesintheEquation--------------------

VariableBSEBBetaTSigT

X1.845988.121832.97687115.152.0000

（Constant）3.5781705054E-053.7164E-05.963.3563

从上面的输出结果可以看出，比较各种估计模型的样本决定系数

，标准误，F值，拟合程度最好的复合函数曲线，并且其模型的回归系数的检验也通过。

故可以选择复合函数曲线作为拟合曲线，其回归方程为：

练习三

1、铝合金化学铣切工艺中，为了便于生产操作，需要对腐蚀速度进行控制，因此要考察腐蚀温度x1（℃），碱浓度x2,（g/L），腐蚀液含铝量x3（g/L）对腐蚀速度y（mm2/min）的影响,一共做了44次试验，所得数据表如下，

试验号

X1

X2

X3

y

试验号

X1

X2

X3

y

1

73

12

200

0.0240

23

87

36

200

0.0380

2

73

21

200

0.0235

24

87

42

200

0.0370

3

75

30

200

0.0240

25

87

48

200

0.0325

4

75

36

200

0.0245

26

77

19

150

0.0230

5

75

42

200

0.0190

27

77

19

175

0.0225

6

75

48

200

0.0185

28

77

19

200

0.0265

7

79

12

200

0.0305

29

77

19

225

0.0285

8

79

21

200

0.030

30

77

19

250

0.0315

9

79

30

200

0.0290

31

81

27

150

0.0255

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 线性回归统计分析方法常用之一如果研究现象

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx
链接地址：https://www.bdocx.com/doc/25848504.html

线性回归是统计分析方法中最常用的方法之一如果所研究的现象有.docx

热门标签