SPSS应用练习.docx
- 文档编号:11485171
- 上传时间:2023-03-01
- 格式:DOCX
- 页数:20
- 大小:237.55KB
SPSS应用练习.docx
《SPSS应用练习.docx》由会员分享,可在线阅读,更多相关《SPSS应用练习.docx(20页珍藏版)》请在冰豆网上搜索。
SPSS应用练习
SPSS应用练习
1、根据下面表中提供的2002年全国31个省、市、自治区的GDP数据,求出GDP的平均值、人均GDP的平均值、中位数、标准差、峰度、偏度、前五位及后五位的省份,并作出茎叶图、检验人均GDP的95%的置信区间。
答:
A、GDP的平均值为3547.10,
描述统计量
N
均值
GDP值(亿)
31
3547.10
有效的N(列表状态)
31
B、人均GDP的平均值、中位数、标准差、峰度、偏度分别为如下黑体字,前五位省份为上海、北京、天津、浙江和江苏,后五位省份为江西、广西、甘肃、内蒙古和贵州。
统计量
人均CDP
省份
N
有效
31
31
缺失
0
0
均值
.9116
中值
.6482
标准差
.62147
偏度
2.270
偏度的标准误
.421
峰度
5.871
峰度的标准误
.821
C、人均GDP的95%的置信区间为【0.6836,1.1396】
描述
统计量
标准误
人均CDP
均值
.9116
.11162
均值的95%置信区间
下限
.6836
上限
1.1396
5%修整均值
.8335
中值
.6482
方差
.386
标准差
.62147
极小值
.31
极大值
3.23
范围
2.91
四分位距
.58
偏度
2.270
.421
峰度
5.871
.821
D、人均CDPStem-and-LeafPlot
FrequencyStem&Leaf
2.000.33
12.000.445555555555
5.000.66677
3.000.888
3.001.011
2.001.23
1.001.5
.001.
1.001.8
2.00Extremes(>=2.3)
Stemwidth:
1.00
Eachleaf:
1case(s)
2、下面表中给出的是一组周岁儿童的身高,性别数据,1代表男,0代表女。
试根据表中的数据建立数据文件,对数据进行基本统计描述,给出身高的平均值、标准差、四分位点、频数分布直方图、箱图,并检验这组数据是否服从正态分布、男女儿童的身高是否存在显著差异。
(α=0.05)
答:
A、数据基本统计描述见下图
统计量
身高
N
有效
60
缺失
0
均值
75.0500
标准差
3.72997
百分位数
25
73.2500
50
76.0000
75
77.7500
B、数据分布特征的判断:
近似服从正态分布。
一方面,从箱图中看,女生身高分布较为集中(不包括奇异值),男生身高较为分散,而且男、女生中位数都偏向上四分位数,因此分布特征呈现负偏态。
另一方面,从“正态性检验”得,K-S值中p=0.003﹤0.05,故拒绝原假设,身高分布不服从数据分布。
因为样本容量60相对较大,可以认为,近似服从正态分布
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
df
Sig.
身高
.145
60
.003
.944
60
.008
a.Lilliefors显著水平修正
C、男女儿童身高的参数检验,因为男女身高相互独立,且两总体近似服从正态分布,故属于两独立样本t检验
第一步,判断两总体的方差是否相等,方差齐性检验,由于F检验统计量的概率P值为0.474,大于显著性水平0.05,则不应拒绝原假设,认为两总体方差无显著差异。
第二步,由于t检验的概率P值0.659大于显著性水平0.05,则不应拒绝原假设,认为男女儿童身高无显著差异。
独立样本检验
方差方程的Levene检验
均值方程的t检验
差分的95%置信区间
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
下限
上限
身高
假设方差相等
.520
.474
-.444
58
.659
-.43048
.97024
-2.37262
1.51166
假设方差不相等
-.445
57.956
.658
-.43048
.96711
-2.36639
1.50543
3、调查339名50岁吸烟习惯与慢性支气管炎病的关系,得下表。
试问吸烟者与不吸烟者的慢性气管炎患病率是否有所不同?
(α=0.05)
答:
吸烟与否影响慢性支气管炎患病率。
在卡方检验中,卡方的概率P值0.006小于显著性水平0.05,因此应拒绝原假设,认为行变量是否吸烟与列变量并不是独立的,前者影响后者。
即在患病的56个个案中,其中有43个人吸烟,吸烟占据较大比例。
是否吸烟*是否患病交叉制表
是否患病
合计
未患病
患病
是否吸烟
不吸烟
计数
121
13
134
期望的计数
111.9
22.1
134.0
吸烟
计数
162
43
205
期望的计数
171.1
33.9
205.0
合计
计数
283
56
339
期望的计数
283.0
56.0
339.0
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
7.469a
1
.006
连续校正b
6.674
1
.010
似然比
7.925
1
.005
Fisher的精确检验
.007
.004
线性和线性组合
7.447
1
.006
有效案例中的N
339
a.0单元格(.0%)的期望计数少于5。
最小期望计数为22.14。
b.仅对2x2表计算
4、下表中给出了某种化工过程在三种浓度、四种温度水平下的得率,
假设在诸水平的搭配下的总体服从正态分布且方差相等,试在0.05水平下检验不同的浓度、不同的温度下的得率的差异是否显著?
交互作用的效应是否显著?
答:
因为假设总体服从正态分布而且方差相等,因此可以进行方差分析
A、单变量多因素方差分析
浓度、温度以及二者交互作用的F统计量概率值分别为0.044、0.566和0.568,在显著性水平0.05的前提下,认为浓度对于得率有显著影响,而温度以及浓度与温度交互作用不显著。
主体间效应的检验
因变量:
得率
源
III型平方和
df
均方
F
Sig.
校正模型
82.833a
11
7.530
1.390
.290
截距
2604.167
1
2604.167
480.769
.000
浓度
44.333
2
22.167
4.092
.044
温度
11.500
3
3.833
.708
.566
浓度*温度
27.000
6
4.500
.831
.568
误差
65.000
12
5.417
总计
2752.000
24
校正的总计
147.833
23
a.R方=.560(调整R方=.157)
B、进一步分析控制变量(浓度)的不同水平是否有显著差异,以及控制变量交互作用的图形分析:
①由多重比较的均值检验得,浓度2%与6%无显著差异,浓度4%与二者有显著差异。
多个比较
因变量:
得率
(I)浓度
(J)浓度
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
TukeyHSD
2%
4%
2.7500
1.16369
.085
-.3546
5.8546
6%
-.2500
1.16369
.975
-3.3546
2.8546
4%
2%
-2.7500
1.16369
.085
-5.8546
.3546
6%
-3.0000
1.16369
.059
-6.1046
.1046
6%
2%
.2500
1.16369
.975
-2.8546
3.3546
4%
3.0000
1.16369
.059
-.1046
6.1046
LSD
2%
4%
2.7500*
1.16369
.036
.2145
5.2855
6%
-.2500
1.16369
.834
-2.7855
2.2855
4%
2%
-2.7500*
1.16369
.036
-5.2855
-.2145
6%
-3.0000*
1.16369
.024
-5.5355
-.4645
6%
2%
.2500
1.16369
.834
-2.2855
2.7855
4%
3.0000*
1.16369
.024
.4645
5.5355
②由交互作用图知,在温度10~24摄氏度之间,两者交互作用明显。
5、铝合金化学铣切工艺中,为了便于生产操作,需要对腐蚀速度进行控制,因此要考察腐蚀温度x1(℃),碱浓度x2,(g/L),腐蚀液含铝量x3(g/L)对腐蚀速度y(mm2/min)的影响,一共做了44次试验,所得数据表如下,
(1)建立线性回归模型;
(2)对回归模型进行检验
(3)若回归模型通过检验,试求:
当x1=80℃,x2=35g/L,x3=200g/L时,腐蚀速度y的点预测与95%的区间预测。
答:
(1)采用逐步回归的方法,得出“经验回归方程”及“标准化回归方程”为:
Y=-0.09767+0.00146*X1-0.00021*X2+0.00008*X3
Y=0.0001*X1-0.00003*X2+0.00003*X3
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
-699.348
86.945
-8.044
.000
腐蚀温度
12.457
1.066
.875
11.691
.000
1.000
1.000
2
(常量)
-792.222
69.088
-11.467
.000
腐蚀温度
14.388
.894
1.010
16.101
.000
.843
1.186
碱浓度
-2.107
.386
-.343
-5.460
.000
.843
1.186
3
(常量)
-976.717
55.206
-17.692
.000
腐蚀温度XI
14.648
.621
1.028
23.591
.000
.840
1.190
碱浓度X2
-2.058
.268
-.335
-7.686
.000
.843
1.187
腐蚀液含铝量X3
.814
.121
.270
6.727
.000
.993
1.007
a.因变量:
10000Y
根据上述方程可知,三个字变量中,腐蚀温度对于腐蚀速度影响最大。
(2)①方程通过了F检验和对系数的t检验,三个方程的F统计量分别为136、130和195。
对应的概率值p分别为0,取显著性水平a=0.05,,所有的p值都小于0.05,表明自变量与因变量之间线性关系显著,可以设计线性模型。
Anovad
模型
平方和
df
均方
F
Sig.
1
回归
156251.852
1
156251.852
136.669
.000a
残差
48018.034
42
1143.287
总计
204269.886
43
2
回归
176466.546
2
88233.273
130.113
.000b
残差
27803.340
41
678.130
总计
204269.886
43
3
回归
191224.856
3
63741.619
195.451
.000c
残差
13045.030
40
326.126
总计
204269.886
43
a.预测变量:
(常量),腐蚀温度。
b.预测变量:
(常量),腐蚀温度,碱浓度。
c.预测变量:
(常量),腐蚀温度,碱浓度,腐蚀液含铝量。
d.因变量:
10000Y
②方程3的决定系数为0.936,可以解释总变异的93.6%,说明方程三的拟合度好。
模型汇总d
模型
R
R方
调整R方
标准估计的误差
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
1
.875a
.765
.759
.00338
.765
136.669
1
42
.000
2
.929b
.864
.857
.00260
.099
29.809
1
41
.000
3
.968c
.936
.931
.00181
.072
45.253
1
40
.000
a.预测变量:
(常量),腐蚀温度。
b.预测变量:
(常量),腐蚀温度,碱浓度。
c.预测变量:
(常量),腐蚀温度,碱浓度,腐蚀液含铝量。
d.因变量:
腐蚀速度
③由于X1、X2、X3容忍度分别为0.840.、0.843、0.993,较接近于1,表示多重共线性较弱,因此上述三个解释变量之间不存在线性相关关系。
(如第一题表)(3)将x1=80℃,x2=35g/L,x3=200g/L带入经验回归方程Y=-0.09767+0.00146*X1-0.00021*X2+0.00008*X3,得Y=0.03
进一步分析得,点预测值为0.02863,95%置信空间为(0.02494,0.03231)
6、下表是山东省2003年统计年鉴的统计数据,试根据表中数据,将山东省的交通运输客运量对人均国内生产总值的关系拟合一条合适的曲线。
7.SPSS自带数据文件plastic.sav中记录了20种塑料样品的有关特征,根据有关知识,认为它们可以被分为三类,请根据拉扯强度(tear_res)、光泽(gloss)、不透明度(opacity)三个变量的取值将其分为三类,并描述每类的基本特征。
答:
本题中的标识变量设定为样本中自动生成的“序列号”。
(1)一些基本的数据表格
最终聚类中心
聚类
1
2
3
抗扯强度
7.15
7.06
6.85
光泽
9.45
9.17
8.85
不透明度
7.65
1.96
4.32
上表格说明了最终凝聚点的各变量对应值
最终聚类中心间的距离
聚类
1
2
3
1
5.700
3.397
2
5.700
2.391
3
3.397
2.391
以上表格,给出了聚类结束时各凝聚点相互之间的距离
ANOVA
聚类
误差
F
Sig.
均方
df
均方
df
抗扯强度
.130
2
.148
17
.881
.432
光泽
.415
2
.275
17
1.514
.248
不透明度
28.179
2
.621
17
45.371
.000
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
以上表格为方差分析表,可看出各变量中存在的情况是不同的。
“抗扯强度”和“光泽”方面存在“类间误差和类内误差的差异性不太明显”的状况,而且最后一栏的Sig值都要大于0.05,也验证了这两个分析变量并不能很好地区分类间的差异。
在“不透明度”方面,类间误差和类内误差的差异性非常明显,最后的Sig值为0.000,所以可以看出,它所起的分类作用是最强的。
(2)关于每类特征的一些描述:
由于“抗扯强度”和“光泽”在“类间误差和类内误差的差异性”的衡量上不明显,所以不同类别产品的特征主要体现在“不透明”程度的大小上,第一类产品“不透明度”值非常高,第二类产品“不透明度”的值最小,第三类产品则是居于两者之间。
附下表以作参考。
上表中也可以看到另外一个现象,那就是第一类全部位于“挤压”和“附加”赋值均为2的情形中,第三类多数分布于“挤压”赋值为1的情形中,第二类在这个方面没有明显的特征。
8.对20名大学生进行的有关价值观的测验,包括9个项目,测试结果如下页所示。
要求根据这9项内容进行因子分析,得到维度较少的几个因子,并对因子命名。
首先是考察一下原有变量是否适合进行因子分析,见下表:
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.585
Bartlett的球形度检验
近似卡方
74.733
df
36
Sig.
.000
由上表得知Bartlett的球形度检验统计量观测值为74.733,相应的概率P值接近0,小于显著性水平0.05,认为相关系数矩阵与单位矩阵有显著差异,但是,KOM值不是十分理想,接近0.6,表示不太适合。
而且从以下原有变量的相关系数矩阵可以得出进行因子分析的适合度不太让人满意。
相关矩阵
合作性
分配
出发点
工作投入
发展机会
社会地位
权力距离
职位升迁
领导风格
相关
合作性
1.000
.731
.411
-.264
.078
.000
.136
.261
.106
分配
.731
1.000
.514
-.355
.170
-.301
.264
.321
.196
出发点
.411
.514
1.000
-.229
.546
.022
.664
.420
.450
工作投入
-.264
-.355
-.229
1.000
.035
.067
.087
-.075
-.131
发展机会
.078
.170
.546
.035
1.000
.379
.599
.817
.461
社会地位
.000
-.301
.022
.067
.379
1.000
.034
.169
.096
权力距离
.136
.264
.664
.087
.599
.034
1.000
.511
.521
职位升迁
.261
.321
.420
-.075
.817
.169
.511
1.000
.425
领导风格
.106
.196
.450
-.131
.461
.096
.521
.425
1.000
其次,需要提取因子,其实在预先不指定因子数的状况下,得出因子提取的总体效果很不理想,所以这里直接只是指定了3个因子,首先看一下碎石图:
其实从上图中也可以看到自第三个以后趋势很平坦了,所以这里提取三个因子是适合的。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
3.576
39.730
39.730
3.576
39.730
39.730
3.196
35.513
35.513
2
1.886
20.952
60.682
1.886
20.952
60.682
2.029
22.540
58.053
3
1.022
11.350
72.032
1.022
11.350
72.032
1.258
13.979
72.032
4
.845
9.385
81.417
5
.638
7.085
88.502
6
.518
5.753
94.255
7
.250
2.774
97.030
8
.186
2.069
99.099
9
.081
.901
100.000
提取方法:
主成份分析。
从以上表格可以得知,首先在第一组数据中描述了初步因子接的状况,第二组数据所指定的三个提取的三个因子解释了原有变量方差的72.032%,效果不是太理想,第三组数据中,因子旋转后并未影响到原有变量的共同度,改变了各因子的方差贡献率,使得因子更方便于解释了。
成份矩阵a
成份
1
2
3
出发点
.823
-.130
-.120
发展机会
.787
.479
.122
职位升迁
.781
.239
.117
权力距离
.763
.248
-.394
领导风格
.650
.194
-.162
分配
.596
-.701
-.029
合作性
.493
-.626
.295
工作投入
-.222
.537
-.407
社会地位
.133
.558
.737
提取方法:
主成分分析法。
a.已提取了3个成份。
从以上因子载荷矩阵中,可以看出前五个变量与第一个因子的相关程度较高,三个因子相比可以看出第一个因子对原变量的解释性教强,而其余的两个不理想,尤其是第三个因子。
下面看一下旋转后的因子载荷矩阵:
旋转成份矩阵a
成份
1
2
3
权力距离
.879
-.045
-.154
发展机会
.834
.004
.309
职位升迁
.752
.191
.282
出发点
.733
.400
-.105
领导风格
.695
.051
.010
合作性
.157
.835
-.024
分配
.314
.799
-.233
工作投入
.090
-.698
-.095
社会地位
.100
-.071
.925
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在5次迭代后收敛。
第一个因子主要解释了这几个变量:
权力距离、发展机会、职位升迁、出发点。
这里可以概括为:
“发展潜力认识”。
第二个因子主要解释了这几个变量:
合作性、分配
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 应用 练习