数据分析spss作业.docx
- 文档编号:25032854
- 上传时间:2023-06-04
- 格式:DOCX
- 页数:22
- 大小:213.07KB
数据分析spss作业.docx
《数据分析spss作业.docx》由会员分享,可在线阅读,更多相关《数据分析spss作业.docx(22页珍藏版)》请在冰豆网上搜索。
数据分析spss作业
数据分析方法及软件应用
(作业)
题目:
4、8、13、16题
指导教师:
学院:
交通运输学院
姓名:
学号:
4、在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。
在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列。
试在α=0.05显著性水平下分析
(1)给出SPSS数据集的格式(列举前3个样本即可);
(2)分析浓度对收率有无显著影响;
(3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。
解答:
(1)分别定义分组变量浓度、温度、收率,在变量视图与数据视图中输入表格数据,具体如下图。
(2)思路:
本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响,因而应用单因素方差分析。
假设:
浓度对收率无显著影响。
步骤:
【分析-比较均值-单因素】,将收率选入到因变量列表中,将浓度选入到因子框中,确定。
输出:
變異數分析
收率
平方和
df
平均值平方
F
顯著性
群組之間
39.083
2
19.542
5.074
.016
在群組內
80.875
21
3.851
總計
119.958
23
显著性水平α为0.05,由于概率p值小于显著性水平α,则应拒绝原假设,认为浓度对收率有显著影响。
(3)思路:
本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响,然后分析两个这控制变量的交互作用能否对收率产生显著影响,因而应该采用多因素方差分析。
假设,H01:
浓度对收率无显著影响;H02:
温度对收率无显著影响;H03:
浓度与温度的交互作用对收率无显著影响。
步骤:
【分析-一般线性模型-单变量】,把收率制定到因变量中,把浓度与温度制定到固定因子框中,确定。
输出:
主旨間效果檢定
因變數:
收率
來源
第III類平方和
df
平均值平方
F
顯著性
修正的模型
70.458a
11
6.405
1.553
.230
截距
2667.042
1
2667.042
646.556
.000
浓度
39.083
2
19.542
4.737
.030
温度
13.792
3
4.597
1.114
.382
浓度*温度
17.583
6
2.931
.710
.648
錯誤
49.500
12
4.125
總計
2787.000
24
校正後總數
119.958
23
a.R平方=.587(調整的R平方=.209)
第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是均方;第五列是F检验统计量的观测值;第六列是检验统计量的概率p值。
可以看到观测变量收率的总变差为119.958,由浓度不同引起的变差是39.083,由温度不同引起的变差为13.792,由浓度和温度的交互作用引起的变差为17.583,由随机因素引起的变差为49.500。
浓度,温度和浓度*温度的概率p值分别为0.030,0.382和0.648。
浓度:
显著性<0.05说明拒绝原假设(浓度对收率无显著影响),证明浓度对收率有显著影响;温度:
显著性>0.05说明不拒绝原假设(温度对收率无显著影响),证明温度对收率无显著影响;浓度与温度:
显著性>0.05说明不拒绝原假设(浓度与温度的交互作用对收率无显著影响),证明温浓度与温度的交互作用对收率无显著影响。
8、以高校科研研究数据为例:
以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、获奖数X8;建立多元线性回归模型,分析它们之间的关系。
解释变量采用逐步筛选策略,并做多重共线性、方差齐性和残差的自相关性检验。
解答:
思路:
根据要求采用逐步筛选的解释变量筛选策略,利用回归分析方法建立多元线性回归模型,分析它们之间的关系,并且要求做多重共线性、方差齐性和残差的自相关性检验。
(1)步骤:
【分析-回归-线性】,X5选入因变量,X2、X4、X6、X8选入自变量,方法选择【逐步】。
【统计量】勾选【估计】、【模型拟合度】、【共线性诊断】与【Durbin-Waston(U)】。
【绘制(T)按钮】,将*ZRESID添加到Y(Y)框中,将*ZPRED添加到X2(X)框中,勾选【正态概率图】,【保存(S)】按钮。
在预测值与残差中勾选【标准化】选项。
选择菜单【分析→相关→双变量】将标准化预测值和标准化残差选入【变量】框,在相关系数中选择Spearman,各项完成后点击【确定】。
输出:
變數已輸入/已移除a
模型
變數已輸入
變數已移除
方法
1
投入人年数
.
逐步(準則:
F-to-enter的機率<=.050,F-to-remove的機率>=.100)。
a.應變數:
课题总数
模型摘要b
模型
R
R平方
調整後R平方
標準偏斜度錯誤
Durbin-Watson
1
.959a
.919
.917
241.9582
1.747
a.預測值:
(常數),投入人年数
b.應變數:
课题总数
表中变量为投入人年数,参考调整的判定系数,由于调整的判定系数(0.917)较接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。
方程DW检验值为1.747,残差存在一定的正自相关。
變異數分析a
模型
平方和
df
平均值平方
F
顯著性
1
迴歸
19379040.047
1
19379040.047
331.018
.000b
殘差
1697769.953
29
58543.791
總計
21076810.000
30
a.應變數:
课题总数
b.預測值:
(常數),投入人年数
被解释变量的总离差平方和为21076810.00,回归平方和及均方分别为19379040.047和19379040.047,剩余平方和及均方分别为1697769.953和58543.791,𝑭检验统计量的观测值为331.018,对应的概率𝒑值近似为0。
依据该表可进行回归方程的显著性检验。
如果显著性水平𝜶为0.05,由于概率𝒑值小于显著性水平𝜶,应拒绝回归方程显著性检验的零假设,认为回归系数不为0,被解释变量与解释变量的线性关系是显著的,可建立线性模型。
係數a
模型
非標準化係數
標準化係數
T
顯著性
共線性統計資料
B
標準錯誤
Beta
允差
VIF
1
(常數)
-94.524
72.442
-1.305
.202
投入人年数
.492
.027
.959
18.194
.000
1.000
1.000
a.應變數\:
课题总数
依据该表可以进行回归系数显著性检验,写出回归方程和检测多重共线性。
可以看到,如果显著性水平𝜶为0.05,投入人年数变量的回归系数显著性t检验的概率p值小于显著性水平𝜶,因此拒绝零假设,认为其偏回归系数与0有显著差异,与被解释变量与解释变量的线性关系是显著的,应保留在方程中。
同时从容忍度和方差膨胀因子看,解释变量与投入人年数多重共线性很弱,可以建立模型。
最终回归方程为,课题总数=-94.524+0.492投入人年数。
排除的變數a
模型
Beta入
T
顯著性
偏相關
共線性統計資料
允差
VIF
允差下限
1
投入科研事业费(百元)
.152b
1.528
.138
.278
.267
3.748
.267
专著数
.023b
.182
.857
.034
.188
5.308
.188
获奖数
.030b
.411
.684
.077
.542
1.846
.542
a.應變數:
课题总数
b.模型中的預測值:
(常數),投入人年数
该表展示回归方程的剔除变量,可以看到,如果显著性水平𝜶为0.05,表中三个变量的回归系数显著性t检验的概率p值大于显著性水平𝜶,因此不拒绝零假设,认为其偏回归系数与0无显著差异,与被解释变量与解释变量的线性关系是不显著的,不应保留在方程中。
同时从容忍度和方差膨胀因子看,解释变量与三个解释变量多重共线性严重,在建立模型的时候应当被剔除。
共線性診斷a
模型
維度
特徵值
條件指數
變異數比例
(常數)
投入人年数
1
1
1.800
1.000
.10
.10
2
.200
3.001
.90
.90
a.應變數:
课题总数
依据该表可进行多重共线性检测,从方差比例上看第二个变量可解释常量的90%,也可解释投入人年数的90%,一次认为这些变量存在多重共线性。
条件指数都小于10,说明存在共线性较弱,低个变量特征值小于0.7,说明线性相关关系较弱。
殘差統計資料a
最小值
最大值
平均數
標準偏差
N
預測值
-57.642
3246.986
960.000
803.7213
31
殘差
-466.2850
509.6787
.0000
237.8914
31
標準預測值
-1.266
2.845
.000
1.000
31
標準殘差
-1.927
2.106
.000
.983
31
a.應變數:
课题总数
数据点围绕基准线还存在一定的规律性,但标准化残差的非参数检验结果表明标准化残差与标准正态分布不存在显著差异,可以认为残差满足了线性模型的前提要求。
随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。
但计算残差与预测值的Spearman等级相关系数为-0.176,且检验并不显著,因此认为异方差现象并不明显。
相關
StandardizedPredictedValue
StandardizedResidual
Spearman的rho
StandardizedPredictedValue
相關係數
1.000
-.176
顯著性(雙尾)
.
.344
N
31
31
StandardizedResidual
相關係數
-.176
1.000
顯著性(雙尾)
.344
.
N
31
31
依据该表可以对标准化残差和标准化预测值的Spearman等级进行分析,可以看到,计算残差与预测值的相关性弱,认为异方差现象不明显。
13、利用1950年~1990年的天津食品消费数据,分析这段时间内的人均生活费用年收入的变化情况。
要求:
数据进行对数变换后,运用Holt线性趋势平滑模型分析。
(1)输出均方根误差和参数估计结果;
(2)输出ACF和PACF图形并对其特征进行分析,是否满足白噪声序列的条件;
(3)给出1991-1992的预测值,并输出拟合图。
解答:
思路:
根据题意,先不进行序列图和自相关、偏自相关的观察和检验阶段处理。
直接利用指数平滑模型中的Holt线性趋势模型对数据进行分析,同时输出均方根误差和参数估计误差,ACF和PACF图像判断是否满足白噪音序列的条件;最后然后对数据进行1991年、1992年做出预测,并用模型进行拟合。
步骤:
【分析-预测-创建模型】,将人均生活费年收入选入【因变量】中,将【方法】选为【指数平滑法】;点击【条件】,在【因变量转换】中选【自然对数】,在【模型类型】中【Holt线性趋势】,【继续】。
【统计量】,在【拟合度量】中选择【平稳的R方、均方根误差】,在【个别模型的统计量】中选中【参数估计】,在【比较模型的统计量】中选中【拟合优度】,选中【显示预测值】,【确定】
【图表】,在【单个模型图】中选择【序列、残差自相关函数、残差部分自相关函数】,在【每张图显示的内容】中现则【观察值、预测值、拟合值】。
【选项】,在【预测阶段】选择第二个,在【日期】的【年】框中填入【1992】。
输出:
模型適合度
適合度統計資料
平均數
SE
最小值
最大值
百分位數
5
10
25
50
75
90
95
平穩R平方
.221
.
.221
.221
.221
.221
.221
.221
.221
.221
.221
R平方
.994
.
.994
.994
.994
.994
.994
.994
.994
.994
.994
RMSE
28.179
.
28.179
28.179
28.179
28.179
28.179
28.179
28.179
28.179
28.179
MAPE
3.517
.
3.517
3.517
3.517
3.517
3.517
3.517
3.517
3.517
3.517
MaxAPE
12.495
.
12.495
12.495
12.495
12.495
12.495
12.495
12.495
12.495
12.495
MAE
17.146
.
17.146
17.146
17.146
17.146
17.146
17.146
17.146
17.146
17.146
MaxAE
82.911
.
82.911
82.911
82.911
82.911
82.911
82.911
82.911
82.911
82.911
標準化BIC
6.858
.
6.858
6.858
6.858
6.858
6.858
6.858
6.858
6.858
6.858
模型統計資料
模型
預測變數數目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數目
平穩R平方
RMSE
統計資料
DF
顯著性
人均生活费年收入-模型_1
0
.221
28.179
16.360
16
.428
0
均方根误差为28.179,误差较小。
指數平滑化模型參數
模型
估計
SE
T
顯著性
人均生活费年收入-模型_1
自然對數
Alpha(水準)
1.000
.157
6.381
.000
Gamma(趨勢)
.400
.178
2.244
.031
模型的两个参数分别为:
1.0和0.4,则具体模型为ft+m=1.0+0.4m,
虽然残差自相关函数和偏自相关函数绝大多数处于置信区间内,但两函数都具有明显减少趋势,且具有一定的季节性,因此不属于白噪音序列。
預測
模型
1991
1992
人均生活费年收入-模型_1
預測
1708.82
1920.58
UCL
1887.02
2274.43
LCL
1543.63
1609.99
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
1991、1992年的预测值与1990年的观测值有较大的增长趋势。
从整个数据来看,1950年至1980年这段时期较为平稳的增长,但是1980年之后迅速上升,最后预测值上升较为明显,这与实际趋势基本一致。
且1991、1992年预测值分别为1708.82、1920.58。
16、结合自己的研究方向、参与项目等,举出一个说明SPSS在交通运输中应用的例子。
例子需包含问题说明、数据来源、统计方法、统计结果及其主要结论。
解答:
问题说明:
利用1950年~2013年美国么历年定期航班旅客周转量(单位:
“台亿客公里)历年数据数据,建立几种指数平滑模型,预测2016年美国定期航班旅客周转量。
数据来源:
《从统计看民航(2014)》中国民航出版社,2014年11月第一版。
年份
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
定期航班旅客周转量/亿客公里
164.4
211.8
250.3
292.1
331.6
391.8
444.5
503
506.9
585.3
年份
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
定期航班旅客周转量/亿客公里
625.4
640.9
704.2
810.4
941.3
1105.2
1285.7
1605.8
1830.7
2017.3
年份
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
定期航班旅客周转量/亿客公里
2131.3
2155.9
1453
2606
2621
2620
2882
3110
3640
4080
年份
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
定期航班旅客周转量/亿客公里
3930
3950
4100
4460
4720
5279
5800
6470
6743
6948
年份
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
定期航班旅客周转量/亿客公里
7314
7183
7651.4
7759
8199.8
8491.6
9214.8
9655.7
9847
10448.7
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
定期航班旅客周转量/亿客公里
11109.5
10444.8
10218.4
10389.6
11643.7
12446.9
12753.8
13120.5
12790
12570
年份
2010
2011
2012
2013
定期航班旅客周转量/亿客公里
12998.7
13105.4
13247.5
13525.2
解题思路:
首先首先绘制和观察彩电出口量的序列图,通过图形观察和检验寻找规律,然后通过指数平滑模型—简单、HOIT线性趋势、Brown线性趋势三个模型进行分析预测,比较选择最佳模型预测2016年亿客公里数。
统计结果:
美国亿客公里时间序列图如下:
该序列图为平稳序列则可以直接进行建模分析。
(1)简单指数平滑模型
型號說明
模型類型
模型ID
亿客公里
模型_1
簡單
模型統計資料
模型
預測變數數目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數目
平穩R平方
RMSE
統計資料
DF
顯著性
亿客公里-模型_1
0
-.417
367.918
12.511
17
.046
0
指數平滑化模型參數
模型
估計
SE
T
顯著性
亿客公里-模型_1
自然對數
Alpha(水準)
1.000
.122
8.175
.000
預測
模型
2014
2015
2016
亿客公里-模型_1
預測
13638.21
13752.16
13867.06
UCL
17502.48
19474.79
21137.62
LCL
10451.72
9393.22
8654.28
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
(2)HOIT线性趋势指数平滑模型
型號說明
模型類型
模型ID
亿客公里
模型_1
Holt
模型統計資料
模型
預測變數數目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數目
平穩R平方
RMSE
統計資料
DF
顯著性
亿客公里-模型_1
0
.610
417.990
15.336
16
.050
0
指數平滑化模型參數
模型
估計
SE
T
顯著性
亿客公里-模型_1
自然對數
Alpha(水準)
.694
.118
5.893
.000
Gamma(趨勢)
.117
.062
1.895
.063
預測
模型
2014
2015
2016
亿客公里-模型_1
預測
13940.78
14300.63
14680.08
UCL
17038.10
18400.81
19860.96
LCL
11286.08
10926.81
10585.12
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
(3)Brown线性趋势指数平滑模型
型號說明
模型類型
模型ID
亿客公里
模型_1
Brown
模型統計資料
模型
預測變數數目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數目
平穩R平方
RMSE
統計資料
DF
顯著性
亿客公里-模型_1
0
.548
402.232
13.265
17
.047
0
指數平滑化模型參數
模型
估計
SE
T
顯著性
亿客公里-模型_1
自然對數
Alpha值(水準與趨勢)
.540
.053
10.109
.000
預測
模型
2014
2015
2016
亿客公里-模型_1
預測
13775.93
14077.67
14456.70
UCL
17291.57
19575.76
22517.84
LCL
10825.41
9827.23
8779.99
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
结果分析:
在三个模型预测分析当中,简单指数模型均方根误差为367.918,HOIT线性趋势指数平滑模型均方根误差为417.990,Brown线性趋势指数平滑模型均方根误差为402.232,其中简单指数模型均方根误差最小。
三个模型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 spss 作业