应用数理统计大作业1逐步回归法分析终.docx
- 文档编号:25948965
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:22
- 大小:429.44KB
应用数理统计大作业1逐步回归法分析终.docx
《应用数理统计大作业1逐步回归法分析终.docx》由会员分享,可在线阅读,更多相关《应用数理统计大作业1逐步回归法分析终.docx(22页珍藏版)》请在冰豆网上搜索。
应用数理统计大作业1逐步回归法分析终
应用数理统计大作业1——逐步回归法分析终
应用数理统计
多元线性回归分析
(第一次作业)
学院:
机械工程及自动化学院
姓名:
学号:
2014年12月
逐步回归法在AMHS物流仿真结果中的应用
摘要:
本文针对自动化物料搬运系统(AutomaticMaterialHandlingSystem,AMHS)的仿真结果,根据逐步回归法,使用软件IBMSPSSStatistics20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。
关键词:
逐步回归;残差;SPSS;AMHS;物流仿真
1、引言
回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。
这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。
逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。
SPSS(StatisticalPackagefortheSocialScience社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为StatisticalProductandServiceSolution,意为“统计产品与服务解决方案”。
SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了。
基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。
本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的320厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件EM-Plant对该系统建模并仿真,设计实验因子及各水平如表11,则共有3*4*6=72组实验结果,如表所示。
为方便描述,将各因子定义为:
X1表示AGC物料交换服务水平,X2表示周转箱交换周期,X3表示EMS数量,Y表示因变量年产量箱数。
本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。
表11三因子多水平实验方案
因子
水平
AGC物料交换服务水平
1
2
3
周转箱交换周期/小时
2
4
6
8
EMS数量
2
4
6
8
10
12
表12实验结果
AGC物料交换服务水平
周转箱交换周期/小时
EMS数量
年产量箱数
1
2
2
20274
1
2
4
43326
1
2
6
67594
1
2
8
82302
1
2
10
86856
1
2
12
85946
1
4
2
19583
1
4
4
37881
1
4
6
45426
1
4
8
45856
1
4
10
45338
1
4
12
45161
1
6
2
19003
1
6
4
30465
1
6
6
30197
1
6
8
30032
1
6
10
29997
1
6
12
30327
1
8
2
17836
1
8
4
22793
1
8
6
22651
1
8
8
23008
1
8
10
22736
1
8
12
23020
2
2
2
20213
2
2
4
45096
2
2
6
50852
AGC物料交换服务水平
周转箱交换周期/小时
EMS数量
年产量箱数
2
2
8
51290
2
2
10
51616
2
2
12
51148
2
4
2
19940
2
4
4
39478
2
4
6
44493
2
4
8
44681
2
4
10
44232
2
4
12
44424
2
6
2
18919
2
6
4
30197
2
6
6
30151
2
6
8
30332
2
6
10
29886
2
6
12
29974
2
8
2
18320
2
8
4
22882
2
8
6
22586
2
8
8
22621
2
8
10
22801
2
8
12
23031
3
2
2
20240
3
2
4
34167
3
2
6
34017
3
2
8
34125
3
2
10
34256
3
2
12
34106
AGC物料交换服务水平
周转箱交换周期/小时
EMS数量
年产量箱数
3
4
2
19745
3
4
4
35499
3
4
6
35530
3
4
8
35764
3
4
10
35416
3
4
12
36138
3
6
2
18777
3
6
4
30216
3
6
6
29928
3
6
8
30342
3
6
10
30205
3
6
12
30166
3
8
2
18389
3
8
4
22628
3
8
6
22804
3
8
8
22455
3
8
10
22448
3
8
12
22763
2、逐步回归法原理
回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。
回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有3个因变量故为多元回归。
在实际研究中,影响因变量Y的因素有很多,而这些因素之间可能存在多重共线性,特别是在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,这就给回归系数的估计带来不合理的解释。
为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量,在它们和Y的观测数据基础上建立“最优”的回归方程。
逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。
逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。
该方法也是从一个自变量开始,视自变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。
但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
对于每一步都要进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
本文运用IBMSPSSStatistics20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。
当F
=F
=0时,则所有的变量全部被引入,逐步回归分析结果就和一般的多元线性回归分析结果相同。
当F取值比较大时,理论和实践都表明,在相同的F水平上,用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。
为了从挑选因子中筛选出尽可能多的因子建立回归预测模型,本系统可以自己给出F临界值,计算机默认的F
为0.05,F
为0.1,如果入选的自变量因子数目不多,可通过人为降低F临界值的水平而筛选出更多的因子。
如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。
如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。
3、模型建立
3.1确定自变量和因变量
根据表1-1可知,本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系,其中AGC物料交换服务水平分为水平1、水平2和水平3,分别表示自动交换、人工交换(积极)和人工交换(消极),周转箱交换周期分为2、4、6和8小时,EMS数量有2、4、6、8、10和12辆。
3.2分析数据准备
打开SPSS软件,在变量视图中定义变量:
自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量,因变量Y表示年产量箱数,如图31所示。
图31定义变量
将表12中的仿真结果输入到SPSS的数据视图中,如图32所示。
图32仿真数据输入
3.3逐步回归分析
单击SPSS工具栏中的分析,选择回归→线性,如图33所示,打开如图34所示的线性回归对话框。
图33线性回归分析
图34线性回归对话框
在该对话框中选择相应的自变量和因变量,方法中选择逐步,在绘制中选中直方图、正态概率图和产生所有部分图。
图35绘制
单击继续后回到线性回归对话框,再单击确定进行回归计算。
4、结果输出及分析
逐步回归分析得到的结果为6张表和2幅图,分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。
4.1输入/移去的变量
表41输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
周转箱交换周期
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
EMS数量
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
AGC服务水平
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
年产量箱数
表41显示变量的引入和剔除,以及引入或剔除的标准。
系统在进行逐步回归过程中产生了3个模型,模型1是按照F检验的标准概率值,先将与Y(年产量箱数)最密切的自变量X2(周转箱交换周期)引入模型,建立Y与X2之间的一元线性回归模型,然后再把X3(EMS数量)引入模型,建立了Y与X2,X3之间的二元线性模型,最后把X1(AGC服务水平)引入模型,建立了它们与Y之间的三元线性模型。
4.2模型汇总
表42模型汇总d
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.632a
.399
.390
11757.83215
2
.727b
.529
.515
10486.43625
3
.776c
.602
.584
9710.99811
.845
a.预测变量:
(常量),周转箱交换周期。
b.预测变量:
(常量),周转箱交换周期,EMS数量。
c.预测变量:
(常量),周转箱交换周期,EMS数量,AGC服务水平。
d.因变量:
年产量箱数
表42中显示了各模型的拟合情况,回归模型概述表中给出了各模型的相关系数R,用来对生成的模型进行评估,R值越接近于1说明估计的模型对观测值的拟合越好。
从表中可以看出,从模型1到模型3,随着预测变量的增多,相关系数(0.390<0.515<0.584)不断增大,说明模型3是比较好的拟合模型。
4.3方差分析
表43Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
6421384062.025
1
6421384062.025
46.449
.000b
残差
9677263179.850
70
138246616.855
总计
16098647241.875
71
2
回归
8511038424.121
2
4255519212.061
38.699
.000c
残差
7587608817.754
69
109965345.185
总计
16098647241.875
71
3
回归
9686010304.455
3
3228670101.485
34.237
.000d
残差
6412636937.420
68
94303484.374
总计
16098647241.875
71
a.因变量:
年产量箱数
b.预测变量:
(常量),周转箱交换周期。
c.预测变量:
(常量),周转箱交换周期,EMS数量。
d.预测变量:
(常量),周转箱交换周期,EMS数量,AGC服务水平。
表43显示各模型的方差分析结果,对模型1:
F等于46.449,显著性概率Sig.<0.001;对模型2:
F等于38.699,显著性概率Sig.<0.001;对模型3:
F等于34.237,显著性概率Sig.<0.001,可以认为Y(年产量箱数)与X2(周转箱交换周期)、X3(EMS数量)和X1(AGC物料服务水平)存在高度显著的线性关系。
4.4回归系数
表44系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
共线性统计量
B
标准误差
试用版
下限
上限
容差
VIF
1
(常量)
54823.917
3394.194
16.152
.000
48054.411
61593.423
周转箱交换周期
-4223.408
619.692
-.632
-6.815
.000
-5459.345
-2987.471
1.000
1.000
2
(常量)
43783.242
3946.951
11.093
.000
35909.289
51657.194
周转箱交换周期
-4223.408
552.684
-.632
-7.642
.000
-5325.982
-3120.834
1.000
1.000
EMS数量
1577.239
361.816
.360
4.359
.000
855.435
2299.043
1.000
1.000
3
(常量)
53678.408
4606.331
11.653
.000
44486.618
62870.198
周转箱交换周期
-4223.408
511.815
-.632
-8.252
.000
-5244.718
-3202.098
1.000
1.000
EMS数量
1577.239
335.061
.360
4.707
.000
908.635
2245.844
1.000
1.000
AGC服务水平
-4947.583
1401.662
-.270
-3.530
.001
-7744.556
-2150.611
1.000
1.000
a.因变量:
年产量箱数
表44中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。
根据表中数据非标准化系数B的数值可知,逐步回归过程中先后建立的三个模型分别是:
模型1:
Y=54823.917-4223.408X2
模型2:
Y=43783.242-4223.408X2+1577.239X3
模型3:
Y=53678.408-4223.408X2+1577.239X3-4947.583X1
t值表示对回归系数的显著性检验,其概率值Sig小于0.05时才可以认为有意义,即自变量对因变量有显著性影响。
在模型中,系数均小于0.05,可认为回归是显著的。
模型3中各因子95%的知置信区间为:
常亮——[44486.618,62870.198],周转箱交换周期——[-5244.718,-3202.098],EMS数量——[908.635,2245.844],AGC服务水平——[-7744.556,-2150.611]。
4.5已排除的变量
表45已排除的变量a
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
AGC服务水平
-.270b
-3.088
.003
-.348
1.000
EMS数量
.360b
4.359
.000
.465
1.000
2
AGC服务水平
-.270c
-3.530
.001
-.394
1.000
a.因变量:
年产量箱数
b.模型中的预测变量:
(常量),周转箱交换周期。
c.模型中的预测变量:
(常量),周转箱交换周期,EMS数量。
表45中显示逐步回归过程所建立的三个模型中剔除掉的变量信息,包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(CollinearityStatistics)的容差。
对模型来说,它的偏回归系数的P值都大于0.05,接受原假设,即不能把这些变量加入方程中。
模型1中排除了变量X1和X3,表明Y只与X2有显著的线性关系;模型2中排除了变量X1,表明Y只与X2和X3有显著的线性关系。
4.6残差统计量
表46残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
8202.8701
59210.8789
33706.8750
11680.01200
72
残差
-23164.48633
30799.59961
.00000
9503.62195
72
标准预测值
-2.184
2.184
.000
1.000
72
标准残差
-2.385
2.372
.000
.979
72
a.因变量:
年产量箱数
表46显示了预测值、残差、标准预测值和标准残差的最小值、最大值,均值,标准差以及样本容量。
根据概率的3σ原则,标准化残差的最大值为2.372<3,说明样本中的数据中没有奇异数据。
4.7残差分布直方图和观测量累计概率P-P图
图41残差分布直方图
图42观测的累积概率图
回归分析中,总假定残差ε服从正态分布,这两张图就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否服从正态分布的假设做出检验。
从回归残差的直方图(图41)与附于图上的正态分布两线相比较,可以明显看出残差分布与正态分布比较吻合。
图42为观测量累计概率P-P图,也是用来比较残差分布与正态分布差异的图形。
图中纵坐标为期望的累计概率分布,横坐标为观测量累计概率分布。
图中的斜线对应着一个均值为0的正态分布。
如果图中的散点密切地分布在这条斜线附近,说明随机变量残差ε服从正态分布,从而表明样本确实是来自于正态总体。
如果离这条直线太远,应该怀疑随机变量ε的正确性。
从图42的散点分布状况来看,72个散点大致散布于斜线附近,因此可以认为残差分布基本上是正态的。
5、异常情况说明
5.1异方差检验
在回归模型的基本假设中,假定随机误差具有相同的方差,但在建立实际经济问题的回归模型时,经常存在与此假设相违背的情况,这时就会出现回归模型中的异方差性。
当一个方程存在异方差性时,如果仍用普通最小二乘法估计参数,将会引起严重的后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。
异方差性的检验方法目前有十多种,但没有一种是公认最优的方法。
常用的是残差图分析法,等级相关系数法以及Glejser法。
本文使用残差图分析法,在SPSS中选中标准残差值为Y,标准预测值为X,如图51,绘制出的残差图如图52所示。
图51绘制残差图
图52残差图
从上图中可以看出,随着预计值的增大,残差变化幅度也随之增大,由此判定存在异方差现象,需要使用非线性的方法拟合。
5.2残差的独立性检验
残差的独立性检验也称为序列相关性检验。
如果随机误差不独立,那么对回归模型的任何顾忌与假设所做出的结论是不可靠的。
残差独立性检验是通过Durbin-Watson检验来完成的。
Durbin-Watson检验的参数用D表示。
D的取值范围是0 从表42得知D=0.845,比较接近于0,说明残差与自变量存在较强的正相关关系。 5.3多重共线性检验 多元线性回归模型的基本假设中要求设计矩阵X中列向量之间不存在密切的线性关系。 若自变量x1,x2,…,xp的观测值之间存在线性关系,就称它们之间存在着多重共线性。 当自变量存在多重共线性时,利用最小二乘法得到的参数估计值很不稳定,回归系数的方差随着共线性强度的增加而加速增长,会造成回归方程高度显著的情况下,所有回归系数都通不过显著性检验,甚至会出现回归系数的正负号无法得到合理的解释。 多重共线性的诊断: 判定系数法,特征根分析法,条件数以及方差扩大因子法。 常用的事方差扩大因子法(VIF),通过SPSS可以计算出各变量的VIF值,经验表明,当VIF>10时,就说明自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘法估计值。 本文中计算出的VIF值列于表44中,可见各系数的VIF均等于1,说明自变量之间不存在多重共线性。 6、结论 由上面的分析可知,模型3满足多元线形回归的假设条件,这样可以分析结果得到回归方程。 在考察的对Y(年产量箱数)影响的3个因素中,分析结果为: AGC物料交换服务水平、周转箱交换周期和EMS数量都有显著性影响并进入回归方程: Y=53678.408-4223.408X2+1577.239X3-4947.583X1 从上述分析的结果来看,我们不难理解,X1表示的AGC物料交换服务水平越高(X1数值上越小),机床加工工件的时间间隔就会缩短,机床的利用率上升,从而使得产量提高,所以年产量箱数与AGC物料交换服务水平成正比,表现为与X1数值成反比,因此回归方程中X1的系数为负数。 周转箱交换周期表示一箱工件进出机床所使用的时间,交换周期越长,表明这箱工件占用机床的时间(包括准备时间和加工时间)越长,那么物料周转的就慢,年产量箱数也就会越低,因此年产量箱数与周转箱交换周期成反比,因此回归方程中X2的系数为负数。 EMS负责将物料运输至对接缓冲,再由AGC将物料运往机床进行加工,很显然,EMS数量越多,运送的物料也就越多,设备利用率会相应上升,产出增多,但是当EMS多到一定程度时,AGC无法快速响应搬运任务时,便成为瓶颈,此时产出便受制于AGC的状态,再增加EMS数量年产量箱数也不会增加。 其实影响AMHS年产量箱数的因素远远不止这些,只不过有一些因素是在设计初期时因硬件或环境的限制下被人为限定,如轨道的长度;还有一些是根据已有的经验执行,如系统中在制品的数量和中央缓冲区的容量等;还有一部分是根据已有的知识就能很轻易地判断出与目标的关系不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 数理统计 作业 逐步回归 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)