实验7相关及回归分析SPSS应用.docx
- 文档编号:27749787
- 上传时间:2023-07-04
- 格式:DOCX
- 页数:25
- 大小:1.25MB
实验7相关及回归分析SPSS应用.docx
《实验7相关及回归分析SPSS应用.docx》由会员分享,可在线阅读,更多相关《实验7相关及回归分析SPSS应用.docx(25页珍藏版)》请在冰豆网上搜索。
实验7相关及回归分析SPSS应用
实验7相关与回归分析
7.1实验目的
熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。
7.2相关知识(略)
7.3实验内容
7.3.1一元线性回归分析的SPSS实验
7.3.2一元非线性回归分析的SPSS实验
7.4实验要求
7.4.1准备实验数据
1.线性回归分析数据
美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(TheWallStreetJournalAlmanac1999)上。
航班正点到达的比率和每10万名乘客投诉的次数的数据,见表7-1所示。
表7-1美国航空公司航空正点率与乘客投诉次数资料
航空公司名称
航班正点率(%)
投诉率(次/10万名乘客)
西南(Southwest)航空公司
81.8
0.21
大陆(Continental)航空公司
76.6
0.58
西北(Northwest)航空公司
76.6
0.85
美国(USAirways)航空公司
75.7
0.68
联合(United)航空公司
73.8
0.74
美洲(American)航空公司
72.2
0.93
德尔塔(Delta)航空公司
71.2
0.72
美国西部(Americawest)航空公司
70.8
1.22
环球(TWA)航空公司
68.5
1.25
2.非线性回归分析数据
1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产总值的关系的数据,见表7-2所示。
表7-21992~2013年某国保费收入与国内生产总值数据单位:
万元
年度
保费收入
国民生产总值
年度
保费收入
国民生产总值
1992
4.6
4517.8
2003
239.7
21662.5
1993
7.8
4860.3
2004
378
26651.9
1994
10.3
5301.8
2005
525
34560.5
1995
13.2
5957.4
2006
630
46670
1996
20
7206.7
2007
683
57494.9
1997
33.1
8989.1
2008
776
66850.5
1998
45.8
10201.4
2009
1080
73142.7
1999
71.04
11954.5
2010
1247.3
76967.2
2000
109.5
14922.3
2011
1393.22
80579.4
2001
142.6
16917.8
2012
1595.9
88228.1
2002
178.5
18598.4
2013
2109.36
94346.4
7.4.2完成一元线性回归分析的SPSS实验,对实验结果作出简要分析。
7.4.3完成一元非线性回归分析的SPSS实验,对实验结果作出简要分析。
7.5实验步骤
7.5.1完成一元线性回归分析的SPSS实验步骤
1.运用SPSS绘制散点图散点图。
第一步:
在excel中输入数据
图7-1
第二步:
将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班正点率与投诉率.xls
图7-2
第三步:
选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,选择简单分布按钮
图7-3
第三步:
在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:
图7-4
第四步:
运行得到:
图7-5
根据散点图初步判断航班正点率和投诉率呈线性关系
2.计算相关系数,明确变量之间存在的相关关系。
第一步:
选择菜单分析(A)相关(C)→双变量相关(B),在双变量相关对话框中,将候选变量框中的航班正点率和投诉率添加到变量(V)框,点击确定:
图7-6
第二步:
运行得到
表7-1相关性
航班正点率(%)
投诉率(次/10万名乘客)
航班正点率(%)
Pearson相关性
1
-.883**
显著性(双侧)
.002
N
9
9
投诉率(次/10万名乘客)
Pearson相关性
-.883**
1
显著性(双侧)
.002
N
9
9
**.在.01水平(双侧)上显著相关。
根据相关系数判断:
航班正点率和投诉率的相关系数为-0.833,显著性水平P为0.002小于0.05,说明航班正点率和投诉率高度负相关。
3.拟合回归方程
第一步:
选择菜单分析(A)→回归(R)→线性(L),将候选变量框中的投诉率添加到因变量框(D),航班正点率添加到自变量框(T),点击确定:
图7-7
第二步,运行得到
表7-2系数a
模型
非标准化系数
标准系数
t
Sig.
(显著性水平)
B
标准误差
试用版
1
(常量)
6.018
1.052
5.719
.001
航班正点率(%)
-.070
.014
-.883
-4.967
.002
a.因变量:
投诉率(次/10万名乘客)
拟合回归方程为
=-0.07X+6.018,常数项和自变量t值分别为5.719和-4.967,显著性水平P分别为0.001和0.002,均小于0.05,说明常数项和自变量X对因变量Y有显著影响。
4.计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果。
第一步:
操作同3
第二步,运行得到
表7-3模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.883a
.779
.747
.16082
a.预测变量:
(常量),航班正点率(%)。
估计标准误差
=0.16082比较小,说明回归直线代表性较好。
R2为0.747接近1,表明模型的拟合效果比较好。
5.在不同置信水平下建立回归估计的置信区间
在置信水平1-α取不同值的情况下,回归估计的置信区间为:
6.对估计的回归方程的斜率作出解释
回归方程的斜率,即回归系数b=-0.07,表示航班正点率每提高1%,旅客投诉率会降低0.07%。
7.如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数。
根据回归方程
=-0.7X+6.018,当航班正点率为80%时,每10万名乘客投诉的次数为-0.7×80+6.018=0.418(次)
8.如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间。
如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间为
=[0.1028,0.7332]
7.5.2完成一元非线性回归分析的SPSS实验步骤
1.画出这些数据的散点图
第一步:
在excel中输入数据
图7-1
第二步:
将excel数据导入spss
单击打开数据文档按钮(或选择菜单文件→打开)→选择文件国民生产总值与保费收入.xls
图7-2
第三步:
选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,选择简单分布按钮
图7-3
第四步:
在简单散点图对话框中,将候选变量框中的将保费收入添加到Y轴,国民生产总值添加到X轴:
图7-4
第五步:
运行得到:
图7-5
根据散点图初步判:
国民生产总值与保费收入呈非线性关系。
2.计算不同模型的样本拟合优度,并据此选择拟合效果最好的模型。
第一步:
选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,依次选择模型复选框中的线性、二次项、对数、指数等模型。
图7-6
第二步:
依次得到运行结果
图7-7直线R2=0.941
图7-8二次曲线R2=0.973
图7-9复合R2=0.789
图7-10增长R2=0.789
图7-11三次曲线R2=0.990
图7-12对数R2=0.772
图7-13S曲线R2=0.946
图7-14指数R2=0.789
图7-15反向R2=0.015
图7-16幂R2=0.015
图7-17LogisticR2=0.829
通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
或者在第一步中,将所有模型的复选框全部选定,得到运行结果:
模型汇总和参数估计值
因变量:
保费收入
方程
模型汇总
参数估计值
R方
F
df1
df2
Sig.
常数
b1
b2
b3
线性
.941
316.551
1
20
.000
-154.292
.019
对数
.772
67.889
1
20
.000
-4576.241
508.979
倒数
.481
18.572
1
20
.000
966.105
-6138735.913
二次
.973
336.771
2
19
.000
23.846
.003
1.756E-7
三次
.990
617.659
3
18
.000
-166.430
.029
-5.364E-7
5.022E-12
复合
.789
74.788
1
20
.000
23.315
1.000
幂
.972
700.929
1
20
.000
2.521E-6
1.796
S
.946
347.778
1
20
.000
7.069
-27064.140
增长
.789
74.788
1
20
.000
3.149
5.450E-5
指数
.789
74.788
1
20
.000
23.315
5.450E-5
Logistic
.789
74.788
1
20
.000
.043
1.000
自变量为国民生产总值(亿元)。
同样,通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。
3.求解保费收入依国民生产总值的估计回归方程。
第一步:
选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,选择模型复选框中的立方模型
图7-18
第二步:
单击曲线估计对话框中的保存按钮,在曲线估计:
保存对话框中,选择预测值、残差、预测区间复选框
图7-19
第三步,运行结果
表7-4模型汇总
R
R方
调整R方
估计值的标准误
.995
.990
.989
64.883
自变量为国民生产总值。
R2为0.990非常接近1,表明模型的拟合效果非常好。
表7-5系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
国民生产总值
.029
.005
1.506
5.836
.000
国民生产总值**2
-5.364E-7
.000
-2.554
-4.277
.000
国民生产总值**3
5.022E-12
.000
2.093
.
.
(常数)
-166.430
45.399
-3.666
.002
从表中可知因变量与自变量的三次回归模型为:
y=-166.430+0.029x-5.364E-7x2+5.022E-12x3
7.6思考与练习题
7.6.1一元线性回归分析
合金钢的强度Y与碳含量X关系密切,通常根据强度要求来控制碳的含量来达到目的,二者之间关系如下:
碳含量
0.03
0.04
0.05
0.07
0.09
0.10
0.12
0.15
0.17
0.20
钢强度
40.50
39.50
41.00
41.50
43.00
42.00
45.00
47.50
53.00
56.00
(1)画出这些数据的散点图;
(2)根据散点图和相关系数,表明二变量之间存在什么关系?
(3)求出描述钢强度是如何依赖碳含量的估计的回归方程;
(4)计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果;
(5)对估计的回归方程的斜率作出解释;
(6)如果碳含量控制在0.18,试估计钢的强度;
(7)如果碳含量控制在0.18,试在95%可信程度下估计钢强度的置信区间。
7.6.2一元非线性回归分析
处在青春期发育阶段的学生,其年龄与远视率的变化关系入下表:
年龄
6
7
8
9
10
11
12
13
14
15
16
17
18
远视率
63.64
61.06
38.84
13.75
14.50
8.07
4.41
2.27
2.09
1.02
2.51
3.12
2.98
实验要求:
(1)画出这些数据的散点图;
(2)计算不同模型的样本拟合优度,根据样本拟合优度选择拟合效果最好的模型;
(3)求出描述保费收入是如何依赖国民生产总值的估计的回归方程。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 相关 回归 分析 SPSS 应用