书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 应用数理统计大作业1逐步回归法分析终.docx

应用数理统计大作业1逐步回归法分析终.docx

文档编号：25948965
上传时间：2023-06-16
格式：DOCX
页数：22
大小：429.44KB

《应用数理统计大作业1逐步回归法分析终.docx》由会员分享，可在线阅读，更多相关《应用数理统计大作业1逐步回归法分析终.docx（22页珍藏版）》请在冰豆网上搜索。

应用数理统计大作业1逐步回归法分析终.docx

应用数理统计大作业1逐步回归法分析终

应用数理统计大作业1——逐步回归法分析终

应用数理统计

多元线性回归分析

（第一次作业）

学院：

机械工程及自动化学院

姓名：

学号：

2014年12月

逐步回归法在AMHS物流仿真结果中的应用

摘要：

本文针对自动化物料搬运系统（AutomaticMaterialHandlingSystem，AMHS）的仿真结果，根据逐步回归法，使用软件IBMSPSSStatistics20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。

关键词：

逐步回归；残差；SPSS；AMHS；物流仿真

1、引言

回归被用于研究可以测量的变量之间的关系，线性回归则被用于研究一类特殊的关系，即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下，计算各个自变量x与因变量y之间的相关性，并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS（StatisticalPackagefortheSocialScience社会科学统计软件包）是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为StatisticalProductandServiceSolution，意为“统计产品与服务解决方案”。

SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能，而且用它处理正交试验设计中的数据程序简单，分析结果明了。

基于以上优点，SPSS已经广泛应用于自然科学、社会科学中，其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。

本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”，在庆安集团新建的320厂房建立自动化物料搬运系统（AMHS），使用生产仿真软件EM-Plant对该系统建模并仿真，设计实验因子及各水平如表11，则共有3*4*6=72组实验结果，如表所示。

为方便描述，将各因子定义为：

X1表示AGC物料交换服务水平，X2表示周转箱交换周期，X3表示EMS数量，Y表示因变量年产量箱数。

本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。

表11三因子多水平实验方案

因子

水平

AGC物料交换服务水平

1

2

3

周转箱交换周期/小时

2

4

6

8

EMS数量

2

4

6

8

10

12

表12实验结果

AGC物料交换服务水平

周转箱交换周期/小时

EMS数量

年产量箱数

1

2

20274

1

2

4

43326

1

2

6

67594

1

2

8

82302

1

2

10

86856

1

2

12

85946

1

4

2

19583

1

4

37881

1

4

6

45426

1

4

8

45856

1

4

10

45338

1

4

12

45161

1

6

2

19003

1

6

4

30465

1

6

30197

1

6

8

30032

1

6

10

29997

1

6

12

30327

1

8

2

17836

1

8

4

22793

1

8

6

22651

1

8

23008

1

8

10

22736

1

8

12

23020

2

20213

2

4

45096

2

6

50852

AGC物料交换服务水平

周转箱交换周期/小时

EMS数量

年产量箱数

2

8

51290

2

10

51616

2

12

51148

2

4

2

19940

2

4

39478

2

4

6

44493

2

4

8

44681

2

4

10

44232

2

4

12

44424

2

6

2

18919

2

6

4

30197

2

6

30151

2

6

8

30332

2

6

10

29886

2

6

12

29974

2

8

2

18320

2

8

4

22882

2

8

6

22586

2

8

22621

2

8

10

22801

2

8

12

23031

3

2

20240

3

2

4

34167

3

2

6

34017

3

2

8

34125

3

2

10

34256

3

2

12

34106

AGC物料交换服务水平

周转箱交换周期/小时

EMS数量

年产量箱数

3

4

2

19745

3

4

35499

3

4

6

35530

3

4

8

35764

3

4

10

35416

3

4

12

36138

3

6

2

18777

3

6

4

30216

3

6

29928

3

6

8

30342

3

6

10

30205

3

6

12

30166

3

8

2

18389

3

8

4

22628

3

8

6

22804

3

8

22455

3

8

10

22448

3

8

12

22763

2、逐步回归法原理

回归分析是研究因变量和自变量之间变动比例关系的一种方法，最终结果一般是建立某种经验性的回归方程。

回归分析因变量的多少有一元回归和多元回归之分，本文中的回归模型因有3个因变量故为多元回归。

在实际研究中，影响因变量Y的因素有很多，而这些因素之间可能存在多重共线性，特别是在各个解释变量之间有高度的相互依赖性，如温度和雨量、雨量与雨日之间的关系密切，这就给回归系数的估计带来不合理的解释。

为了得到一个可靠的回归模型，需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量，在它们和Y的观测数据基础上建立“最优”的回归方程。

逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法，它是在多元线性回归基础上派生出来的一种算法技巧。

逐步回归分析法在筛选变量方面较为理想，故目前多采用该方法来组建回归模型。

该方法也是从一个自变量开始，视自变量对Y作用的显著程度，从大到小地依次逐个引入回归方程。

但当引入的自变量由于后面变量的引入而变得不显著时，要将其剔除掉。

引入一个自变量或从回归方程中剔除一个自变量，为逐步回归的一步。

对于每一步都要进行F值检验，以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。

这个过程反复进行，直至既无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程时为止。

本文运用IBMSPSSStatistics20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量，组建回归方程。

当F

=F

=0时，则所有的变量全部被引入，逐步回归分析结果就和一般的多元线性回归分析结果相同。

当F取值比较大时，理论和实践都表明，在相同的F水平上，用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。

为了从挑选因子中筛选出尽可能多的因子建立回归预测模型，本系统可以自己给出F临界值，计算机默认的F

为0.05，F

为0.1，如果入选的自变量因子数目不多，可通过人为降低F临界值的水平而筛选出更多的因子。

如此时入选的因子太多，可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。

如最后建立的回归预测模型的复相关系数不大，回归模型的拟合精度不太高，可根据这些入选因子来组建多元非线性回归预测模型。

3、模型建立

3.1确定自变量和因变量

根据表1-1可知，本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系，其中AGC物料交换服务水平分为水平1、水平2和水平3，分别表示自动交换、人工交换（积极）和人工交换（消极），周转箱交换周期分为2、4、6和8小时，EMS数量有2、4、6、8、10和12辆。

3.2分析数据准备

打开SPSS软件，在变量视图中定义变量：

自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量，因变量Y表示年产量箱数，如图31所示。

图31定义变量

将表12中的仿真结果输入到SPSS的数据视图中，如图32所示。

图32仿真数据输入

3.3逐步回归分析

单击SPSS工具栏中的分析，选择回归→线性，如图33所示，打开如图34所示的线性回归对话框。

图33线性回归分析

图34线性回归对话框

在该对话框中选择相应的自变量和因变量，方法中选择逐步，在绘制中选中直方图、正态概率图和产生所有部分图。

图35绘制

单击继续后回到线性回归对话框，再单击确定进行回归计算。

4、结果输出及分析

逐步回归分析得到的结果为6张表和2幅图，分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。

4.1输入／移去的变量

表41输入／移去的变量a

模型

输入的变量

移去的变量

方法

1

周转箱交换周期

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

2

EMS数量

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

3

AGC服务水平

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

a.因变量：

年产量箱数

表41显示变量的引入和剔除，以及引入或剔除的标准。

系统在进行逐步回归过程中产生了3个模型，模型1是按照F检验的标准概率值，先将与Y（年产量箱数）最密切的自变量X2（周转箱交换周期）引入模型，建立Y与X2之间的一元线性回归模型，然后再把X3（EMS数量）引入模型，建立了Y与X2，X3之间的二元线性模型，最后把X1（AGC服务水平）引入模型，建立了它们与Y之间的三元线性模型。

4.2模型汇总

表42模型汇总d

模型

R

R方

调整R方

标准估计的误差

Durbin-Watson

1

.632a

.399

.390

11757.83215

2

.727b

.529

.515

10486.43625

3

.776c

.602

.584

9710.99811

.845

a.预测变量:

（常量），周转箱交换周期。

b.预测变量:

（常量），周转箱交换周期，EMS数量。

c.预测变量:

（常量），周转箱交换周期，EMS数量，AGC服务水平。

d.因变量:

年产量箱数

表42中显示了各模型的拟合情况，回归模型概述表中给出了各模型的相关系数R，用来对生成的模型进行评估，R值越接近于1说明估计的模型对观测值的拟合越好。

从表中可以看出，从模型1到模型3，随着预测变量的增多，相关系数（0.390<0.515<0.584）不断增大，说明模型3是比较好的拟合模型。

4.3方差分析

表43Anovaa

模型

平方和

df

均方

F

Sig.

1

回归

6421384062.025

1

6421384062.025

46.449

.000b

残差

9677263179.850

70

138246616.855

总计

16098647241.875

71

2

回归

8511038424.121

2

4255519212.061

38.699

.000c

残差

7587608817.754

69

109965345.185

总计

16098647241.875

71

3

回归

9686010304.455

3

3228670101.485

34.237

.000d

残差

6412636937.420

68

94303484.374

总计

16098647241.875

71

a.因变量:

年产量箱数

b.预测变量:

（常量），周转箱交换周期。

c.预测变量:

（常量），周转箱交换周期，EMS数量。

d.预测变量:

（常量），周转箱交换周期，EMS数量，AGC服务水平。

表43显示各模型的方差分析结果，对模型1：

F等于46.449，显著性概率Sig.<0.001；对模型2：

F等于38.699，显著性概率Sig.<0.001；对模型3：

F等于34.237，显著性概率Sig.<0.001，可以认为Y（年产量箱数）与X2（周转箱交换周期）、X3（EMS数量）和X1（AGC物料服务水平）存在高度显著的线性关系。

4.4回归系数

表44系数a

模型

非标准化系数

标准系数

t

Sig.

B的95.0%置信区间

共线性统计量

B

标准误差

试用版

下限

上限

容差

VIF

1

（常量）

54823.917

3394.194

16.152

.000

48054.411

61593.423

周转箱交换周期

-4223.408

619.692

-.632

-6.815

.000

-5459.345

-2987.471

1.000

2

（常量）

43783.242

3946.951

11.093

.000

35909.289

51657.194

周转箱交换周期

-4223.408

552.684

-.632

-7.642

.000

-5325.982

-3120.834

1.000

EMS数量

1577.239

361.816

.360

4.359

.000

855.435

2299.043

1.000

3

（常量）

53678.408

4606.331

11.653

.000

44486.618

62870.198

周转箱交换周期

-4223.408

511.815

-.632

-8.252

.000

-5244.718

-3202.098

1.000

EMS数量

1577.239

335.061

.360

4.707

.000

908.635

2245.844

1.000

AGC服务水平

-4947.583

1401.662

-.270

-3.530

.001

-7744.556

-2150.611

1.000

a.因变量:

年产量箱数

表44中显示各模型的偏回归系数，标准化偏回归系数及其对应的检验值。

根据表中数据非标准化系数B的数值可知，逐步回归过程中先后建立的三个模型分别是：

模型1：

Y=54823.917-4223.408X2

模型2：

Y=43783.242-4223.408X2+1577.239X3

模型3：

Y=53678.408-4223.408X2+1577.239X3-4947.583X1

t值表示对回归系数的显著性检验，其概率值Sig小于0.05时才可以认为有意义，即自变量对因变量有显著性影响。

在模型中，系数均小于0.05，可认为回归是显著的。

模型3中各因子95%的知置信区间为：

常亮——[44486.618,62870.198]，周转箱交换周期——[-5244.718，-3202.098]，EMS数量——[908.635,2245.844]，AGC服务水平——[-7744.556,-2150.611]。

4.5已排除的变量

表45已排除的变量a

模型

BetaIn

t

Sig.

偏相关

共线性统计量

容差

1

AGC服务水平

-.270b

-3.088

.003

-.348

1.000

EMS数量

.360b

4.359

.000

.465

1.000

2

AGC服务水平

-.270c

-3.530

.001

-.394

1.000

a.因变量:

年产量箱数

b.模型中的预测变量:

（常量），周转箱交换周期。

c.模型中的预测变量:

（常量），周转箱交换周期，EMS数量。

表45中显示逐步回归过程所建立的三个模型中剔除掉的变量信息，包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计（CollinearityStatistics）的容差。

对模型来说，它的偏回归系数的P值都大于0.05，接受原假设，即不能把这些变量加入方程中。

模型1中排除了变量X1和X3，表明Y只与X2有显著的线性关系；模型2中排除了变量X1，表明Y只与X2和X3有显著的线性关系。

4.6残差统计量

表46残差统计量a

极小值

极大值

均值

标准偏差

N

预测值

8202.8701

59210.8789

33706.8750

11680.01200

72

残差

-23164.48633

30799.59961

.00000

9503.62195

72

标准预测值

-2.184

2.184

.000

1.000

72

标准残差

-2.385

2.372

.000

.979

72

a.因变量:

年产量箱数

表46显示了预测值、残差、标准预测值和标准残差的最小值、最大值，均值，标准差以及样本容量。

根据概率的3σ原则，标准化残差的最大值为2.372<3，说明样本中的数据中没有奇异数据。

4.7残差分布直方图和观测量累计概率P-P图

图41残差分布直方图

图42观测的累积概率图

回归分析中，总假定残差ε服从正态分布，这两张图就是根据样本数据的计算结果显示残差分布的实际状况，然后对残差分布是否服从正态分布的假设做出检验。

从回归残差的直方图（图41）与附于图上的正态分布两线相比较，可以明显看出残差分布与正态分布比较吻合。

图42为观测量累计概率P-P图，也是用来比较残差分布与正态分布差异的图形。

图中纵坐标为期望的累计概率分布，横坐标为观测量累计概率分布。

图中的斜线对应着一个均值为0的正态分布。

如果图中的散点密切地分布在这条斜线附近，说明随机变量残差ε服从正态分布，从而表明样本确实是来自于正态总体。

如果离这条直线太远，应该怀疑随机变量ε的正确性。

从图42的散点分布状况来看，72个散点大致散布于斜线附近，因此可以认为残差分布基本上是正态的。

5、异常情况说明

5.1异方差检验

在回归模型的基本假设中，假定随机误差具有相同的方差，但在建立实际经济问题的回归模型时，经常存在与此假设相违背的情况，这时就会出现回归模型中的异方差性。

当一个方程存在异方差性时，如果仍用普通最小二乘法估计参数，将会引起严重的后果，特别是最小二乘估计量不再具有最小方差的优良性，即最小二乘估计的有效性被破坏了。

异方差性的检验方法目前有十多种，但没有一种是公认最优的方法。

常用的是残差图分析法，等级相关系数法以及Glejser法。

本文使用残差图分析法，在SPSS中选中标准残差值为Y，标准预测值为X，如图51，绘制出的残差图如图52所示。

图51绘制残差图

图52残差图

从上图中可以看出，随着预计值的增大，残差变化幅度也随之增大，由此判定存在异方差现象，需要使用非线性的方法拟合。

5.2残差的独立性检验

残差的独立性检验也称为序列相关性检验。

如果随机误差不独立，那么对回归模型的任何顾忌与假设所做出的结论是不可靠的。

残差独立性检验是通过Durbin-Watson检验来完成的。

Durbin-Watson检验的参数用D表示。

D的取值范围是0

从表42得知D=0.845,比较接近于0，说明残差与自变量存在较强的正相关关系。

5.3多重共线性检验

多元线性回归模型的基本假设中要求设计矩阵X中列向量之间不存在密切的线性关系。

若自变量x1，x2，…，xp的观测值之间存在线性关系，就称它们之间存在着多重共线性。

当自变量存在多重共线性时，利用最小二乘法得到的参数估计值很不稳定，回归系数的方差随着共线性强度的增加而加速增长，会造成回归方程高度显著的情况下，所有回归系数都通不过显著性检验，甚至会出现回归系数的正负号无法得到合理的解释。

多重共线性的诊断：

判定系数法，特征根分析法，条件数以及方差扩大因子法。

常用的事方差扩大因子法（VIF），通过SPSS可以计算出各变量的VIF值，经验表明，当VIF>10时，就说明自变量之间有严重的多重共线性，且这种多重共线性可能会过度的影响最小二乘法估计值。

本文中计算出的VIF值列于表44中，可见各系数的VIF均等于1，说明自变量之间不存在多重共线性。

6、结论

由上面的分析可知，模型3满足多元线形回归的假设条件，这样可以分析结果得到回归方程。

在考察的对Y（年产量箱数）影响的3个因素中，分析结果为：

AGC物料交换服务水平、周转箱交换周期和EMS数量都有显著性影响并进入回归方程：

Y=53678.408-4223.408X2+1577.239X3-4947.583X1

从上述分析的结果来看，我们不难理解，X1表示的AGC物料交换服务水平越高（X1数值上越小），机床加工工件的时间间隔就会缩短，机床的利用率上升，从而使得产量提高，所以年产量箱数与AGC物料交换服务水平成正比，表现为与X1数值成反比，因此回归方程中X1的系数为负数。

周转箱交换周期表示一箱工件进出机床所使用的时间，交换周期越长，表明这箱工件占用机床的时间（包括准备时间和加工时间）越长，那么物料周转的就慢，年产量箱数也就会越低，因此年产量箱数与周转箱交换周期成反比，因此回归方程中X2的系数为负数。

EMS负责将物料运输至对接缓冲，再由AGC将物料运往机床进行加工，很显然，EMS数量越多，运送的物料也就越多，设备利用率会相应上升，产出增多，但是当EMS多到一定程度时，AGC无法快速响应搬运任务时，便成为瓶颈，此时产出便受制于AGC的状态，再增加EMS数量年产量箱数也不会增加。

其实影响AMHS年产量箱数的因素远远不止这些，只不过有一些因素是在设计初期时因硬件或环境的限制下被人为限定，如轨道的长度；还有一些是根据已有的经验执行，如系统中在制品的数量和中央缓冲区的容量等；还有一部分是根据已有的知识就能很轻易地判断出与目标的关系不

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 应用数理统计作业逐步回归分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：应用数理统计大作业1逐步回归法分析终.docx
链接地址：https://www.bdocx.com/doc/25948965.html

应用数理统计大作业1逐步回归法分析终.docx

热门标签