线性回归是统计分析方法中最常用的方法之一如果所研究的现象有Word下载.docx
- 文档编号:18795577
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:20
- 大小:317.95KB
线性回归是统计分析方法中最常用的方法之一如果所研究的现象有Word下载.docx
《线性回归是统计分析方法中最常用的方法之一如果所研究的现象有Word下载.docx》由会员分享,可在线阅读,更多相关《线性回归是统计分析方法中最常用的方法之一如果所研究的现象有Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
Modelfit是默认项。
能够输出复相关系数R、R2及R2修正值,估计值的标准误,方差分析表。
Rsquaredchange:
引入或剔除一个变量时,R2的变化。
Descriptives:
基本统计描述。
PartandPartialcorrelations:
相关系数及偏相关系数。
Collinearitydiagnostics:
共线性诊断。
主要对于多元回归模型,分析各自变量的之间的共线性的统计量:
包括容忍度和方差膨胀因子、特征值,条件指数等。
本例中选择上面所有的统计项。
●Residuals残差栏
Durbin-Watson:
D.W检验.
Casewisediagnostics:
奇异值诊断,有两个选项:
Outliersoutside()standarddeviations:
奇异值判据,默认项标准差≥3。
Allcase输出所有观测量的残差值。
本例中选择D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。
图3.11LinearRegression:
Statistics
4、如果需要观察图形,可单击Plots按纽,打开LinearRegression:
Plots对话框如图3.12所示。
在此对话框中可以选择所需要的图形。
图3.12LinearRegression:
Plots对话框
在左上角的源变量框中,选择Dependent进入X(或Y)轴变量框,选择其它变量进入Y(或X)轴变量框,除因变量外,其客观存在变量依次是:
ZPRED:
标准化预测值,ZRESID:
标准化残差,DRESID:
剔除残差,ADJPRED:
修正后预测值,SRESID学生化残差,SDRESID:
学生化剔除残差。
●StandardizedResidualPlots栏,标准化残差图类型,有选择项:
Histogram:
标准化残差直方图
Normalprobabilityplot标准化残差序列的正态分布概率图.
Produceallpartialplots依次绘制因变量和所有自变量的散布图
本例中选择因变量Dependent与标准化残差ZRESID的残差图。
5、单击Options按纽,打开LinearRegression:
Options对话框,如图3.13所示。
可以从中选择模型拟合判断准则SteppingMethodCriteria及缺失值的处理方式。
图3.13LinearRegression:
Options对话框
●SteppingMethodCriteria栏,设置变量引入或剔除模型的判别标准。
UseprobabilityofF:
采用F检验的概率为判别依据。
UseFvalue:
采用F值作为检验标准。
●Includeconstantinequation回归方程中包括常数项。
●MissingValues缺失值的处理方式。
本例中选择系统默认项。
6、如果要保存预测值等数据,可单击Save按纽打开LinearRegression:
Save对话框。
选择需要保存的数据种类作为新变量存在数据编辑窗口。
其中有预测值、残差,预测区间等。
本例中不做选择。
7、当所有选择完成后,单击OK得到分析结果。
主要的分析结果见表3.4。
表3.4(a)ModelSummary(d)模型综合分析表
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
ChangeStatistics变动分析
Durbin-Watson
RSquareChange
FChange
df1
df2
Sig.FChange
1
.879(a)
.772
.755
2.44047
44.085
13
.000
2
.994(b)
.988
.986
.58304
.216
215.772
12
3
.997(c)
.994
.993
.41783
.006
12.365
11
.005
2.066
aPredictors:
(Constant),卷烟销量(万箱)
bPredictors:
(Constant),卷烟销量(万箱),打火石销量(百万粒)
cPredictors:
(Constant),卷烟销量(万箱),打火石销量(百万粒),煤气户数(万户)
dDependentVariable:
火柴销量(万件)
表3.4(a)模型综合分析中有模型的复相关系数R,样本决定系数R2,修正的可决系数
,估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。
由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好,DW值为2.066,显然通过DW检验,说明残差项不存在一阶自相关。
表3.4(b)方差分析表
方差分析表3.4(b)同时给出了3个模型的方差分析表。
其中模型3的F值最大,说明模型3的回归效果最显著。
表3.4(c)回归系数
非标准化回归系数
UnstandardizedCoefficients
标准化回归系数StandardizedCoefficients
检验统计量
t
P值Sig.
相关系数
Correlations
共线性统计CollinearityStatistics
B
Std.Error
Beta
单相关Zero-order
偏相关Partial
Part
容忍度
Tolerance
方差膨胀因子VIF
(Constant)
13.392
1.999
6.698
卷烟销量(万箱)
.320
.048
.879
6.640
1.000
17.240
.545
31.647
.315
.012
.865
27.347
.992
.999
1.001
打火石销量(百万粒)
-.243
.017
-.465
-14.689
-.490
-.973
-.464
17.420
.394
44.243
.254
.019
.698
13.228
.970
.300
.185
5.417
-20.526
-.987
煤气户数(万户)
.049
.014
3.516
.826
.727
.080
5.415
aDependentVariable:
表3.4(c)中的Model栏中,模型1是先将卷烟销量作为自变量进入模型,模型2将卷烟销量与打火石销量两个自变量进入模型,模型3是将卷烟、打火石和煤气户数三个自变量进入模型。
第四个自变量蚊香销量没有通过检验自动剔除。
回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都比较显著。
由最后两列的容忍度Tolerance和方差膨胀因子VIF的值来看,自变量之间不存在强烈的共线性。
表3.4(d)相关系数表
火柴销量(万件)
蚊香销量(十万盒)
PearsonCorrelation
.808
.903
.949
-.023
-.029
-.007
Sig.(1-tailed)
.
.032
.468
.458
.490
N
15
相关分析表中表示的相关系数是全部变量(自变量与因变量)的两两变量之间的简单相关系数和相关性检验。
表3.4(e)残差统计
残差统计表3.4(e)表示了预测值、残差、标准化预测值和标准化残差的特征值。
其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。
表3.4(f)共线性诊断表:
共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。
最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。
表3.4(g)奇异值表(标准化残差值大于2)
奇异值表3.4(g)中依次是序号,标准化残差值,实际观测值、预测值及残差值。
表中给出的两个个体数据的标准化残差(数据号为12和14)超出了2。
表3.4(h)标准化残差图:
由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。
最终得回归模型为:
6.3曲线估计
上节介绍了线性回归模型的分析和检验方法。
如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。
SPSS提供了多种曲线方程。
列出表3.5如下:
表3.5可化为线性方程的曲线方程
函数名称
方程形式
相应的线性回归方程
Linear线性函数
Quadratic二次多项式
Compound复合模型
Growth生长曲线
Logarithmic对数函数
Cubic三次多项式
SS曲线
Exponential指数函数
Inverse逆函数
Power幂函数
Logistic逻辑曲线
这里以例题说明曲线拟合的具体操作方法。
例4:
表3.6表示的是全国1990年至2002年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。
表3.6人均消费支出与教育支出数据表(见参考文献[3])
年份
人均消费性支出(元)
教育支出(元)
1990
1627.64
38.24
1991
1854.22
47.91
1992
2203.6
57.56
1993
3138.56
71.00
1994
4442.09
153.98
1995
5565.68
194.62
1996
6544.73
307.95
1997
7188.71
419.19
1998
7911.94
542.78
1999
7493.31
556.93
2000
7997.37
656.28
2001
9463.07
1091.85
2002
9396.45
1062.13
首先根据上表建立数据SY-10,作出人均消费支出与教育支出的散点图3.14如下:
图3.14人均消费与教育支出的散点图
由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。
具体操作如下:
1、单击AnalyzeRegressionCurveEstimation打开CurveEstimation对话框。
如图3.15所示:
图3.15CurveEstimation曲线估计对话框
2、选择估计曲线:
SPSS有多条曲线形式供选择。
根据散点图,本例中选择Quadratic,Power,和Compound曲线进行对比分析。
3、单击Save按纽,打开Save对话框如图3.16所示。
图3.16CurveEstimation:
Save对话框
选择需要保存到数据表中的项目。
在SaveVariables栏中,复选项依次是:
PredictedValues预测值、Residuals残差、Predictionintervals预测区间,可以在下方框中选择置信度,默认值为95%。
本例中不作选择。
4、所有选择完成后,单击OK,得到输出结果如表3.7.:
表3.7曲线估计输出表与曲线图
Independent:
X
决定系数自由度F值P值回归系数
DependentMthRsqd.f.FSigfb0b1b2
YQUA.98710382.64.000252.698-.14752.5E-05
YCOM.995112086.35.00020.95501.0004
YPOW.95411229.58.0003.6E-051.8460
从表中可以看出,可决系数接近1的模型是Com复合函数,同时也可通过图形验证这三个模型对观察值的拟合程度。
下面对以上三个模型进一步分析。
在主对话框的下方选择输出方差分析表DisplayAMOVAtable,可得到方差分析表的详细分析结果如表3.8所示:
表3.8曲线估计及方差分析表
Dependentvariable..YMethod..QUADRATI二次多项式
复相关指数MultipleR.99353
可决系数RSquare.98710
修正的可决系数AdjustedRSquare.98452
标准误StandardError45.70690
AnalysisofVariance:
方差分析表
自由度平方和均方
DFSumofSquaresMeanSquare
Regression21598766.0799383.00
Residuals1020891.22089.12
F(检验统计量)=382.64096SignifF(假设检验P值)=.0000
--------------------VariablesintheEquation--------------------
变量回归系数标准误标准化系数T值P值
VariableBSEBBetaTSigT
X-.147527.025041-1.134958-5.892.0002
X**22.46018091E-052.2722E-062.08579710.827.0000
(Constant)252.69789057.7922484.373.0014
_
Dependentvariable..YMethod..COMPOUND复合函数
ListwiseDeletionofMissingData
MultipleR.99737
RSquare.99476
AdjustedRSquare.99428
StandardError.09002
DFSumofSquaresMeanSquare
Regression116.90528916.905289
Residuals11.089131.008103
F=2086.35111SignifF=.0000
X1.0004209.1977E-062.711154108768.23.0000
(Constant)20.9550191.22613917.090.0000
Dependentvariable..YMethod..POWER幂函数
MultipleR.97687
RSquare.95428
AdjustedRSquare.95012
StandardError.26578
Regression116.21738716.217387
Residuals11.777033.070639
F=229.58009SignifF=.0000
X1.845988.121832.97687115.152.0000
(Constant)3.5781705054E-053.7164E-05.963.3563
从上面的输出结果可以看出,比较各种估计模型的样本决定系数
,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。
故可以选择复合函数曲线作为拟合曲线,其回归方程为:
练习三
1、铝合金化学铣切工艺中,为了便于生产操作,需要对腐蚀速度进行控制,因此要考察腐蚀温度x1(℃),碱浓度x2,(g/L),腐蚀液含铝量x3(g/L)对腐蚀速度y(mm2/min)的影响,一共做了44次试验,所得数据表如下,
试验号
X1
X2
X3
y
73
200
0.0240
23
87
36
0.0380
21
0.0235
24
42
0.0370
75
30
25
48
0.0325
4
0.0245
26
77
19
150
0.0230
5
0.0190
27
175
0.0225
6
0.0185
28
0.0265
7
79
0.0305
29
225
0.0285
8
0.030
250
0.0315
9
0.0290
31
81
0.0255
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 统计分析 方法 常用 之一 如果 研究 现象