SPSS统计软件课程作业.docx
- 文档编号:5541918
- 上传时间:2022-12-19
- 格式:DOCX
- 页数:22
- 大小:127.85KB
SPSS统计软件课程作业.docx
《SPSS统计软件课程作业.docx》由会员分享,可在线阅读,更多相关《SPSS统计软件课程作业.docx(22页珍藏版)》请在冰豆网上搜索。
SPSS统计软件课程作业
《SPSS统计软件》课程作业
信计111刘晓蕾
1.某单位对100名女生测定血清总蛋白含量,数据如下:
74.378.868.878.070.480.580.569.771.273.5
79.575.675.078.872.072.072.074.371.272.0
75.073.578.874.375.865.074.371.269.768.0
73.575.072.064.375.880.369.774.373.573.5
75.875.868.876.570.471.281.275.070.468.0
70.472.076.574.376.577.667.372.075.074.3
73.579.573.574.765.076.581.675.472.772.7
67.276.572.770.477.268.867.367.367.372.7
75.873.575.073.573.573.572.781.670.374.3
73.579.570.476.572.777.284.375.076.570.4
计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。
第1步数据组织:
定义1个变量为:
“血清总蛋白含量”,其度量标准为“度量”。
第2步探索分析设置:
选择菜单“分析→描述统计→探索”,打开“探索”对话框,,将“血清总蛋白含量”字段移入“因变量列表”。
打开“统计量”对话框,选中“描述性”选项;
打开“探索:
图”对话框,选中“按因子水平分组”、“茎叶图”、“带检验的正态图”、“直方图”等选项。
打开“探索:
选项”,选中“按列表排除个案”选项。
第3步运行结果及分析:
描述
统计量
标准误
血清总蛋白含量
均值
73.6680
.39389
均值的95%置信区间
下限
72.8864
上限
74.4496
5%修整均值
73.6533
中值
73.5000
方差
15.515
标准差
3.93892
极小值
64.30
极大值
84.30
范围
20.00
四分位距
4.60
偏度
.054
.241
峰度
.037
.478
表中显示“血清总蛋白含量”的描述性统计量,左表中只显示的是均值、均值的95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等
2.绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。
上图为标准Q-Q图,Q-Q图可以用来检验数据是否服从某种分布,在Q-Q图中,检验数据是否较好地服从给定分布的标准有两个:
①看标准Q-Q图上的数据点与直线的重合度;②Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。
从上图中可以看出,题目中的数据与直线重合度较好,故很好地服从正态分布,这与前面的正态检验表中的结果是一致的
箱图中显示血清蛋白总含量数据绘制成对应的箱体。
每一个箱体上方那条线的取值代表该分组中最大值,下方那条线的取值代表最小值。
箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
df
Sig.
血清总蛋白含量
.073
100
.200*
.990
100
.671
a.Lilliefors显著水平修正
*.这是真实显著水平的下限。
表中显示了血清总蛋白含量的两种检验方法的正态性检验结果,包括各分组的统计量、自由度及显著性水平,以K-S方法的分析:
其自由度sig.=0.200,明显大于0.05,故应接受原假设,认为题中数据服从正态分布
3.正常男子血小板计数均值为
今测得20名男性油漆工作者的血小板计数值(单位:
)如下:
220188162230145160238188247113
126245164231256183190158224175
问油漆工人的血小板计数与正常成年男子有无异常?
分析:
这是一个典型的比较样本均值和总体均值的T检验问题;
第1步数据组织:
首先建立SPSS数据文件,只需建立一个变量“血小板计数”,录入相应的数据即可
第2步单样本T检验分析设置
选择菜单“分析→比较均值→单样本T检验(S)”,打开“单样本T检验”对话框,将变量“血小板计数”移入”检验变量”列表框,并输入检验值225;
打开“单样本T检验:
选项”对话框,设置置信区间为95%(缺省为95%);
单个样本统计量
N
均值
标准差
均值的标准误
血小板计数
20
192.1500
42.23652
9.44437
上表给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误。
单个样本检验
检验值=225
t
df
Sig.(双侧)
均值差值
差分的95%置信区间
下限
上限
血小板计数
-3.478
19
.003
-32.85000
-52.6173
-13.0827
本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,小于0.05,故原假设不成立,也就是说,男性油漆工作者的血小板与
有显著性差异,无理由相信油漆工人的血小板计数与正常成年男子无异常。
4.在某次考试中,随机抽取男女学生的成绩各10名,数据如下:
男:
99795989798999828085
女:
88545623756573508065
假设总体服从正态分布,比较男女得分是否有显著性差异。
第1步数据组织:
在SPSS数据文件中建立两个变量,分别为“性别”、“成绩”,度量标准分别为“名义”、“度量”,变量“品种”的值标签为:
b—男生,g—女生,录入数据。
第2步独立样本T检验设置:
选择菜单“选择→比较均值→独立样本T检验”,打开“独立样本T检验”对话框,将“成绩”作为要进行T检验的变量,将“性别”字段作为分组变量,定义分组变量的两个分组分别为“b”和“g”。
打开“独立样本T检验:
选项”对话框,具体选项内容及设置与单样本T检验相同。
组统计量
性别
N
均值
标准差
均值的标准误
成绩
男生
10
84.0000
11.52774
3.64539
女生
10
62.9000
18.45385
5.83562
上表给出了本例独立样本T检验的基本描述统计量,包括两个样本的均值、标准差和均值的标准误。
独立样本检验
方差方程的Levene检验
均值方程的t检验
差分的95%置信区间
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
下限
上限
成绩
假设方差相等
1.607
.221
3.067
18
.007
21.10000
6.88065
6.64429
35.55571
假设方差不相等
3.067
15.096
.008
21.10000
6.88065
6.44235
35.75765
根据上表“方差方程的Levene检验”中的sig.为0.221,远大于设定的显著性水平0.05,故本例两组数据方差相等。
在方差相等的情况下,独立样本T检验的结果应该看上表中的“假设方差相等”一行,第5列为相应的双尾检测概率(Sig.(双侧))为0.007,在显著性水平为0.05的情况下,T统计量的概率p值小于0.05,故应拒绝零假设,,即认为两样本的均值不是相等的,在本例中,能认为男女得分绩有显著性差异。
5.设有5种治疗荨麻疹的药,要比较它们的疗效。
假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:
药物类别
治愈所需天数
1
5,8,7,7,10,8
2
4,6,6,3,5,6
3
6,4,4,5,4,3
4
7,4,6,6,3,5
5
9,3,5,7,7,6
问所有药物的效果是否一样?
第1步分析:
由于考虑的是一个控制变量(药物)对一个观测变量(治愈所需天数)的影响,而且是五种药物,所以不适宜用独立样本T检验(仅适用两组数据),应采用单因素方差分析。
第2步数据的组织:
数据分成两列,一列是治愈所需天数,变量名为“治愈所需天数”,另一变量是药物种类(变量值分别为1,2,3,4,5),变量名为“药物种类”,输入数据并保存。
第3步方差相等的齐性检验:
由于方差分析的前提是各个水平下(这里是不同的药物种类影响下的治愈所需天数)的总体服从方差相等的正态分布,且各组方差具有齐性。
其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验。
误差方差等同性的Levene检验a
因变量:
治愈所需天数
F
df1
df2
Sig.
.552
4
25
.699
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+药物类别
方差齐性检验的H0假设是:
方差相等。
从上表可看出相伴根据Sig.=0.699>(0.05)说明应该接受H0假设(即方差相等)。
故下面就用方差相等的检验方法。
ANOVA
治愈所需天数
平方和
df
均方
F
显著性
组间
36.467
4
9.117
3.896
.014
组内
58.500
25
2.340
总数
94.967
29
上表是几种饲料方差分析的结果,组间(BetweenGroups)平方和(SumofSquares)为36.467,自由度(df)为4,均方为9.117;组内(WithinGroups)平方和为58.500,自由度为25,均方为2.340;F统计量为3.896。
由于组间比较的相伴概率Sig.(p值)=0.014<0.05,故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明五种药物对治愈所需天数有显著性差异。
第4步多重比较分析:
通过上面的步骤,只能判断4种饲料喂猪效果是否有显著差异。
如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别(即哪种药物更好)等细节问题,就需要在多个样本均值间进行两两比较。
由于第3步检验出来方差具有齐性,故选择一种方差相等的方法,这里选LSD方法;显著性水平默认取0.05;
多个比较
治愈所需天数
LSD
(I)药物类别
(J)药物类别
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
类别1
类别2
2.5000*
.88318
.009
.6811
4.3189
类别3
3.1667*
.88318
.001
1.3477
4.9856
类别4
2.3333*
.88318
.014
.5144
4.1523
类别5
1.3333
.88318
.144
-.4856
3.1523
类别2
类别1
-2.5000*
.88318
.009
-4.3189
-.6811
类别3
.6667
.88318
.457
-1.1523
2.4856
类别4
-.1667
.88318
.852
-1.9856
1.6523
类别5
-1.1667
.88318
.198
-2.9856
.6523
类别3
类别1
-3.1667*
.88318
.001
-4.9856
-1.3477
类别2
-.6667
.88318
.457
-2.4856
1.1523
类别4
-.8333
.88318
.354
-2.6523
.9856
类别5
-1.8333*
.88318
.048
-3.6523
-.0144
类别4
类别1
-2.3333*
.88318
.014
-4.1523
-.5144
类别2
.1667
.88318
.852
-1.6523
1.9856
类别3
.8333
.88318
.354
-.9856
2.6523
类别5
-1.0000
.88318
.268
-2.8189
.8189
类别5
类别1
-1.3333
.88318
.144
-3.1523
.4856
类别2
1.1667
.88318
.198
-.6523
2.9856
类别3
1.8333*
.88318
.048
.0144
3.6523
类别4
1.0000
.88318
.268
-.8189
2.8189
基于观测到的均值。
误差项为均值方(错误)=2.340。
*.均值差值在.05级别上较显著。
从整个表反映出来五种药物相互之间均存在显著性差异,从效果来看是第3种最好,其次是第2种,第1种最差。
上图为几种药物均值的折线图,可以看出均值分布比较陡峭,均值差异也较大。
6.某公司在各地区销售一种特殊化妆品。
该公司观测了15个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:
地区
销售(箱)
人数(千人)
人均收入(元)
1
162
274
2450
2
120
180
3254
3
223
375
3802
4
131
205
2838
5
67
86
2347
6
169
265
3782
7
81
98
3008
8
192
330
2450
9
116
195
2137
10
55
53
2560
11
252
430
4020
12
232
372
4427
13
144
236
2660
14
103
157
2088
15
212
370
2605
(1)画出这三个变量的两两散点图,并计算出两两之间的相关系数。
(2)试建立Y与X1,X2之间的线性回归方程,并研究相应的统计推断问题,同时预测适合购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。
第1步分析:
这是一个因变量和两个自变量之间的问题,故应该考虑用二元线性回归解决。
第2步数据组织:
定义三个变量,分别为“z”(销售量)、“x”(人数)、“y”(人均收入)。
第3步一元线性回归分析设置:
选择菜单“分析→回归→线性”,打开“线性回归”对话框,将变量“销售量”作为因变量,“人数”和“人均收入”作为自变量。
打开“统计量”对话框,选上“估计”和“模型拟合度”。
单击“绘制(T)…”按钮,打开“线性回归:
图”对话框,选用DEPENDENT作为y轴,*ZPRED为x轴作图。
并且选择“直方图”和“正态概率图”
作相应的保存选项设置,如预测值、残差和距离等。
输入/移去的变量
模型
输入的变量
移去的变量
方法
1
人均收入,人数a
.
输入
a.已输入所有请求的变量。
表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。
可以看出,进入模型的自变量为“销售量”
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.999a
.999
.999
2.17722
a.预测变量:
(常量),人均收入,人数。
b.因变量:
销售量
R=0.999,说明自变量与因变量之间的相关性很强。
R方(R2)=0.999,说明自变量“销售量”可以解释因变量“人数”和“人均收入”的99.9%的差异性。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
53844.716
2
26922.358
5679.466
.000a
残差
56.884
12
4.740
总计
53901.600
14
a.预测变量:
(常量),人均收入,人数。
b.因变量:
销售量
表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。
方差来源有回归、残差。
从表中可以看出,F统计量的观测值为5679.466,显著性概率为0.000,即检验假设“H0:
回归系数B=0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
3.453
2.431
1.420
.181
人数
.496
.006
.934
81.924
.000
人均收入
.009
.001
.108
9.502
.000
a.因变量:
销售量
表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)。
从表中可看出,回归模型的常数项为3.453,自变量“人数”的回归系数为0.496,“人均收入”的回归系数为0.009.因此,可以得出回归方程:
销售量=3.453+0.496×人数+0.009×人均收入。
回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。
当购买此化妆品的人数为220千人,人均收入为2500元时,该城市该化妆品的销量为:
销售量=220×0.496+0.009×2500+3.453=135.073箱
系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
B
标准误差
试用版
零阶
偏
部分
1
(常量)
3.453
2.431
1.420
.181
人数
.496
.006
.934
81.924
.000
.995
.999
.768
人均收入
.009
.001
.108
9.502
.000
.639
.940
.089
a.因变量:
销售量
7.研究青春发育阶段的年龄和远视率的变化关系,测得数据如下
年龄
6
7
8
9
10
11
12
13
14
15
16
17
18
远视率
63.64
61.06
38.84
13.75
14.5
8.07
4.41
2.27
2.09
1.02
2.51
3.12
2.98
请对年龄与远视率的关系进行曲线估计。
第1步分析:
先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。
第2步数据组织:
定义为两个变量,分别是“x”(年龄)、“y”(远视率),输入数据并保存。
第3步作散点图初步判定变量的分布趋势:
第4步进行曲线估计:
依次选择菜单“分析→回归→曲线估计”,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。
模型汇总和参数估计值
因变量:
远视率
方程
模型汇总
参数估计值
R方
F
df1
Df2
Sig.
常数
b1
b2
b3
线性
.758
28.182
1
9
.000
88.198
-6.265
对数
.851
51.221
1
9
.000
180.617
-68.560
倒数
.912
93.291
1
9
.000
-48.486
679.341
二次
.953
81.448
2
8
.000
214.566
-31.311
1.138
三次
.956
50.638
3
7
.000
271.869
-48.735
2.804
-.050
复合
.925
110.422
1
9
.000
834.164
.658
幂
.934
127.848
1
9
.000
232454.999
-4.351
S
.901
82.301
1
9
.000
-1.963
40.901
增长
.925
110.422
1
9
.000
6.726
-.419
指数
.925
110.422
1
9
.000
834.164
-.419
Logistic
.925
110.422
1
9
.000
.001
1.520
自变量为年龄。
从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。
故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。
模型汇总
R
R方
调整R方
估计值的标准误
.978
.956
.937
5.987
自变量为年龄。
复相关系数R=0.978,R2=0.956,经校正后的R平方值为0.937。
故可判断远视率与年龄之间有较显著的三次曲线关系
ANOVA
平方和
Df
均方
F
Sig.
回归
5444.791
3
1814.930
50.638
.000
残差
250.887
7
35.841
总计
5695.678
10
自变量为年龄。
相伴概率Sig.=0.000说明模型具有显著的统计学意义。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年龄
-48.735
26.681
-6.773
-1.827
.111
年龄**2
2.804
2.522
8.642
1.112
.303
年龄**3
-.050
.076
-2.749
-.663
.529
(常数)
271.869
89.633
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 统计 软件 课程 作业