SPSS讲义.docx
- 文档编号:12304334
- 上传时间:2023-04-18
- 格式:DOCX
- 页数:41
- 大小:811.49KB
SPSS讲义.docx
《SPSS讲义.docx》由会员分享,可在线阅读,更多相关《SPSS讲义.docx(41页珍藏版)》请在冰豆网上搜索。
SPSS讲义
统计软件包SPSS使用精要
随着计算机的发展和普及,统计软件包的不断完善,其在医学科研中的应用已愈来愈普遍,备受研究人员的青睐。
统计软件包分为商业化软件和免费软件,前者的影响和国际公认程度都是后者所不能比拟的。
如国际公认的SAS(StatisticalAnalysisSystem)、SPSS(StatisticalPackagefortheSocialScience)、Stata、BMDP(BiomedicalDataProcessing)等一流统计软件外,近年来,又有一批统计软件也很出色,如STATA、SYSTAT、SigmaStat、EGRET、STATGRAPHICS等。
免费软件影响较大的有EpiInfo(美国CDC网站有免费下载),国内软件总体水平仍较落后,有一定影响的如华西医科大学编制的PEMS(《中国医学百科全书·医学统计学》软件包)和第四军医大学的SPLM(线性模型统计软件包)等。
在以上众多软件包中,本书介绍目前在中国流行最广的SPSS16.0。
一、SPSS forWindows概述
SPSS forWindows是美国芝加哥SPSS软件公司研制,1971年实现商品化,根据用户的反馈意见、统计学的进展和计算机硬件的发展,不断改进版本,力求统计方法和软件功能的先进性和易用性。
目前最新版本为18.0版,其特点为:
①视窗操作和全屏幕数据编辑功能;②强大的统计功能,包括基础统计(描述性统计、探索性分析,列联表分析、t检验、方差分析、线性相关与回归分析、非参数统计等),专业统计(判别分析、聚类分析、因子分析、多维标度和可靠性分析等),高级统计(析因分析、Logistic回归、多元方差分析、对数线性模型、非线性回归、Probit分析以及生存分析的有关内容),以及其它模块的功能也很强大(如Tables,Trends,Categories和LISREL等);③强大的统计作图和表格化结果输出功能(可以与MS Office兼容);④灵活的变量变换与文件交换系统。
下面介绍目前使用广泛的SPSSforwindows16.0版,并且本书涉及到的有关统计方法。
二、数据编辑器简介及数据文件的建立
无论基础统计还是高级统计,均需将原始数据录入后,才能使SPSS识别处理。
当SPSS启动后,SPSS主画面中出现功能选项对话框如图1,我们选择“typeindate”,然后点“ok”就可以进入“SPSSDataEditor”窗口,这就是SPSS的数据编辑器,也称数据窗,如图2所示,可以在该窗口进行建立数据文件的一切工作。
图1打开SPSS文件时的对话框
图2SPSS数据编辑窗口
(一)数据编辑器的组成
(1)窗口标题栏:
是当SPSS启动成功后,屏幕最上方标有名为“Untitled1-SPSSDataEditor”的窗口,当显示的是已经保存过的数据文件时,窗口标题栏显示该窗口中数据文件的名字。
窗口标题栏下,依次为主菜单栏和工具栏。
(2)当前数据栏:
为工具栏下面左边一栏,显示当前光标位置上的变量名和记录号。
(3)数据输入栏:
在当前数据栏右边,显示光标位置上的数据值,从键盘输入的数据先显示在该栏中,回车后,则显示在光标定位的单元格中。
(4)数据显示区:
为当前数据栏下面的二维平面表格区域,在表格顶部显示变量名,在它下面的各单元格中显示各变量值。
所选定的单元格边框被加黑,其数据将显示在数据显示栏中。
(二)数据文件的建立
为了让SPSS软件处理原始数据,首先要做的工作就是把数据录入到SPSS能够识读的数据文件,即建立数据文件,录入数据的过程分两个步骤:
一是录入数据之前应该根据实验的设计定义变量,包括定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式(显示宽度、对齐方式、缺失值标记等);二是将每一个具体的变量值录入数据库单元格内。
数据录入的步骤:
(1)数据录入方法:
数据编辑器打开后,光标移至某一单元格就可以开始录入数据,一旦有了数据spss会默认赋予变量名,系统默认的第一个变量名VRA00001,第二个变量名VRA00002依次类推,在输入一个数据后,回车或按向下移动光标键,再输入第二个数据……
(2)修改变量名数据编辑中,鼠标单击左下方的VariableView菜单就可以打开定义变量的窗口。
系统默认的第一个变量名VRA00001,我们随时可以在这个窗口中修改变量名,只要把光标移动到VRA00001处直接修改。
变量名首字符是字母,其后可为字母或数字或除“?
”、“-”、“!
”和“*”以外的字符;系统不区分变量名中的大小写字符。
如:
ABC和abc被认为是同一变量。
若对变量其它属性的默认值描述不满意,可以在这个窗口自行设置。
图3定义变量的窗口
(3)量类型与宽度:
单击变量类型后的
按钮,就可以展开VariableType变量类型
对话框,如图B-4所示。
对话框左边列有8种可供选择的变量类型,包括Numeric
标准数值型、Comma带逗点的数值型(数值的整数部分从右向左每三位用一个逗点隔开)、ScientificNotation科学计数法、Date日期型、Date带有美元符号的数值型、CustomCurrency自定义型、String字符型。
想选那种类型用鼠标单击其前面的圆圈即可。
参数框中Width表示数值的总宽度(默认为8),Decimal为小数位数(默认为2)。
要改变其值,将光标移至方框内,单击鼠标键,Backspace键删除,输入合适的值。
(4)定义变量标签:
变量标签是对变量名
的进一步说明。
需要用变量标签对变量名的含义加以解释。
在定义变量窗口中,单击Labels对应单元格直接填写标签即可。
图4定义变量类型对话框
三、描述性统计分析
描述统计分析过程可计算均数、算术和、标准差、最大值、最小值、方差、极差和均数的标准误等统计量进行描述。
下面以一个例题进行说明。
例1某医科大学测得110名7岁男孩身高(cm),结果见表1,请对其进行统计描述分析。
表1110名7岁男孩身高(cm)
120.7
110.3
111.6
114.5
120.3
118.8
121.5
112.5
112.7
116.9
122.5
124.5
126.7
119.4
116.4
119.2
121.9
120.8
123.3
115.3
114.7
121.4
117.1
119.3
123.1
119.7
120.7
108.8
113.5
125.1
119.1
122.9
125.6
128.0
118.8
121.1
127.3
116.2
119.5
124.9
118.3
121.8
127.1
117.3
113.4
130.3
116.8
116.4
118.2
121.7
114.5
113.1
126.9
118.7
122.7
131.4
120.8
113.5
114.9
118.9
118.1
121.6
116.9
121.6
121.3
117.2
116.3
129.4
112.9
117.1
122.8
115.1
118.3
121.9
124.4
115.7
122.8
129.5
123.4
121.3
123.4
124.9
132.3
125.5
111.5
120.6
119.2
124.1
117.7
116.1
125.8
125.6
119.4
121.7
123.1
117.4
119.5
123.6
113.8
122.9
116.9
120.8
115.2
113.9
118.1
121.3
123.4
115.4
120.9
119.4
操作步骤如下:
1.先建立数据文件(录入原始数据),此例仅有一个变量:
shengao:
7岁男孩身高(所有数据110个必须输入到同一列表示110个男孩的身高有110个取值),并以文件名shengao.sav.保存;
2.在数据窗菜单栏内选择Analyze→DescriptivesStatistics→Descriptives顺序逐一单击鼠标键,展开Descriptives对话框;
图5描述统计分析对话框
3.鼠标单击变量height,则反向显示,鼠标单击向右箭头按钮,变量shengao进入Variable栏中;
4.单击Options按钮,打开Options对话框,可选中Mean(均数)、Sum(累加,即
)、Std.Deviation(标准差)、Minimum(最小观察值)、Maximum(最大观察值)Variance(方差)等复选项。
55.在主对话框中单击OK按钮,输出结果如下:
图6选择项对话框
四、数值变量的假设检验
ttest过程是对两均数差别有无统计意义检验的过程。
共有三种不同的比较方式。
(一)单样本资料的t检验
即SPSS中的单样本t检验(One-SampleTTest)检验某个变量的样本均数是否与给定的常数(总体均数)之间差异有无统计学意义。
例2仍利用例1的资料,假如已知某地区7岁男孩平均身高为112.3cm。
问该市7岁男孩身高与该地区7岁男孩身高是否有差异?
使用SPSS软件进行统计分析的过程如下:
(1)读取数据文件shengao.sav.。
(2)选择数据窗菜单栏内按Analyze→CompareMeans→One-SampleTTest顺序逐一单击鼠标键。
展开One-SampleTTest单一样本t检验对话框,如图7所示。
(3)在对话框中将唯一的变量Height从源变量栏内移至Test框中。
(4)单击Options按钮,打开选择项对话框,如图8所示,Confidence选择系统默认值95%,缺失值选择系统默认值Excludecasesanalysisbyanalysis项。
单击Continue按钮,返回主对话框。
图7单变量t检验对话框图8单变量t检验选择项框
5.在主对话框中在TestValue处填上已知总体均数112.3单击OK按钮
,得到如下表格:
6.结果分析:
(1)样本身高均数为119.95,标准差4.71024,标准误0.44910。
(2)t值17.0.30,自由度109,双测t检验的P值为0.000,因此拒绝无效假设。
(3)ConfidenceIntervaloftheDifference差值的95%可信区间是6.7581~8.5383之间。
(二)配对设计的t检验
即SPSS中的配对样本t检验(PairedSampleTtest),配对资料t检验的应用条件是:
要求成对资料的差值来自正态总体。
例3某医师用一种中药治疗一组高血压患者,观察患者舒张压在治疗前后的变化,问该中药对高血压患者的舒张压变化是否有影响?
表2某中药治疗高血压患者前后舒张压变化情况
病人编号
(1)
舒张压(kpa)
差值d
(4)=
(2)-(3)
治疗前
(2)
治疗后
(3)
1
14.7
12.0
2.7
2
15.3
15.5
-0.2
3
16.4
13.5
2.9
4
16.4
17.5
-1.1
5
16.8
14.7
2.1
6
14.4
12.0
2.4
7
14.7
12.3
2.4
8
17.7
13.9
3.8
9
18.7
16.8
1.9
10
13.8
11.7
2.1
11
16.0
15.0
1.0
12
16.0
14.9
1.1
操作步骤如下:
1.建立数据文件:
定义变量:
治疗前;治疗后。
2.输入数据。
3.按Analyze→CompareMeans→Paired–SamplesTTest顺序逐一单击鼠标键,展开Paired–SamplesTTest配对样本检验对话框,如图9b所示。
4.指定配对变量:
在主对话框左面的变量表中,用鼠标单击“治疗前”变量,该变量名反向显示,出现在主对话框左下部的CurrentSelections当前所选择的变量栏中第一个Variable提示项后面;同样单击“治疗后”变量,显示在第二个Variable提示项后面。
图9b配对样本t检验主对话框
4.确定配对变量:
当CurrentSelections栏中显示出配对的两个变量名时,鼠标单击向右的箭头按钮,将配对变量送入PairedVariables矩形框中。
5.单击OK按钮,输出下面三个表格:
6.结果分析:
(1)治疗前舒张压的均数:
15.9167,标准差:
1.429691;治疗后舒张压的均数:
14.1583,标准差:
1.92942。
(2)配对t检验结果:
t=4.467,自由度11,双测t检验的P值为0.001,因此拒绝无效假设。
(三)成组设计的t检验
进行成组设计的两样本均数比较的条件是:
两个样本彼此独立,均来自正态总体,且要求方差齐性。
因而该方法又称为独立样本的t检验(IndependentSamplesTTest)。
例4某医院用国产药和进口药治疗Ⅱ型糖尿病患者,将18名Ⅱ型糖尿病患者随机分成两组,分别使用国产药和进口药治疗后,测空腹血糖(mmol/L)下降值如下,
国产药:
1.31.71.20.71.31.71.21.40.8
进口药:
0.91.91.00.81.01.22.31.31.9
问两药的疗效有无差别?
分析步骤如下:
1.建立数据文件,此例中有两个变量:
药(1代表国产药,2代表进口药)和血糖,数据输入格式如图11a;
2.按Analyze→CompareMeans→IndependentSamplesTTest顺序逐一单击鼠标键,展开IndependentSamplesTTest主对话框.如图B-10所示.
3.选择“血糖”作为检验变量,单击上面一个箭头按钮,将其送入Test矩形框中.
4.选择“药”作为分组变量,单击下面一个箭头按钮,将其送入Grouping矩形框中。
5.单击DefineGroups按钮,展开后的对话框,如图B-11所示。
图10a独立样本t检验数据输入格式
图10b独立样本t检验主对话框
图11确定检验变量和分组变量
如果分组变量是分类的,则在DefineGroups对话框中选择Usespecifiedvalues;如果分组变量是连续的,则在该对话框中应该选择Cutpoint(切点)选择项。
注意:
这两项必须且只能选择其中一项。
(1)Usespecifiedvalues选项是按分组变量的值进行分组。
要在两个Group后面的框内输入第一组合第二组的分类变量值。
本例在第一个框内输入1作为第一组,在第二个框内输入2作为第二组。
按Continue按钮返回主对话框。
(2)Cutpoint选项,需在其后的框内输入一个连续变量的值,将观测量分为大于该值和小于该值的两各组,检验在这两组之间进行。
(3)单击OK按钮,得出如下两个表格:
6.结果分析:
(1)国产药治疗组血糖的均数:
1.2556,标准差:
0.34319;进口药治疗组的均数:
3.3667,标准差:
0.53385。
(2)成组设计t检验结果:
方差齐性检验F=3.097,P=0.098,可认为方差齐性,看第一行运行结果,得t=-0.525,自由度16,双测t检验的P值为0.607,因此接受无效假设,即不可以认为两药疗效有差别。
(如果方差不齐,可参看第二行结果的校正t检验)
五、分类变量假设检验
分类资料的假设检验方法较多,有卡方检验、u检验、和直接计算概率法等。
这里介绍卡方检验的统计分析过程。
卡方检验可用于检验两个或两个以上率(或构成比)之间差别有无统计意义。
(一)四格表资料的χ2检验
例5某地地方性氟中毒与性别的关系资料如下,试问男、女地方性氟中毒患病率是否不同?
某地地方性氟中毒与性别的关系
性别
患病人数
未患病人数
合计
男
307
703
1010
女
198
780
978
合计
505
1483
1988
SPSS的四格表资料卡方检验统计分析过程为:
1.建立数据文件:
首先要给四格表中每个数据定位,只对数据给定行和列,如“307”为第一行第一列。
定义变量:
行变量(row)、列变量(column)、四格表或列联表中的实际数(f)。
数据文件如图12所示。
2.指定f为四格表中的频数:
按Data→WeightCases顺序单击鼠标左键,展开为WeightCases对话框,图13所示。
在左边的源变量中鼠标单击“f”,再单击右边WeightCasesbyFrequency前面的圆圈,其下向右的箭头按钮被激活,鼠标单击之,则“f”被调入右边的矩形框中,单击OK按钮。
图12数据文件
图13a指定f为四格表中频数的对话框
图13b指定f为四格表中频数的对话框
3.按Analyze→DescriptivesStatistics→Crosstabs顺序逐一单击鼠标键,展开Crosstabs对话框,如图14所示。
从左边的源变量框中将变量“row”调入右边“Row”下的矩形框中,变量“column”至“Column”下的矩形框中。
再单击“statistics”按钮,展开Crosstabs:
statistics对话框,如图15所示。
选中“Chi-square”,单击“Continue”返回主对话框。
图14
图15四格表资料卡方检验对话框
4.单击OK按钮,则得到如下表输出结果。
Chi-SquareTests
Value
df
Asymp.Sig.(2-sided)
ExactSig.(2-sided)
ExactSig.(1-sided)
PearsonChi-Square
27.017a
1
.000
ContinuityCorrectionb
26.484
1
.000
LikelihoodRatio
27.198
1
.000
Fisher'sExactTest
.000
.000
Linear-by-LinearAssociation
27.003
1
.000
NofValidCasesb
1988
a.0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis248.44.
b.Computedonlyfora2x2table
5.结果分析:
Pearsonχ2检验得χ2=27.01,P=0.000,拒绝无效假设,可以认为男、女地方性氟中毒患病率有差异。
(二)配对资料的χ2检验
例6由205份标本,,将每份标本接种在甲、乙两种培养基中,结果出现四种情况:
甲乙培养基均阳性的标本,36份;甲培养基阳性乙培养基阴性的标本,0份;乙培养基阳性而甲培养基阴性的标本,34份;甲乙培养基均阴性的标本,135份。
试比较两种培养基效果有无不同?
配对四格表资料
乙法培养
甲法
合计
+
-
+
36
34
70
-
0
135
135
合计
36
169
205
分析过程:
1.建立数据文件:
变量a(甲种培养方法)、变量b(乙种培养方法)、f(频数);其中a和b中的数值1表示阳性,0表示阴性。
如图16所示。
图16-a数据文件格式
图16b指定频数变量
图17指定配对卡方检验
2.指定f为配对资料的频数:
方法同例5。
3.Analyze→DescriptivesStatistics→Crosstabs顺序逐一单击鼠标键,展开Crosstabs对话框,如图F5-3所示。
从左边的源变量框中将变量“a”调入右边“Row”下的矩形框中,变量“b”至“Column”下的矩形框中。
再单击“statistics”按钮,展开Crosstabs:
statistics对话框,如图17所示。
选中“McNemar”,单击“Continue”返回主对话框。
4.单击OK按钮,则输出结果如下表所示。
六、直线相关与回归
直线相关与回归的概念在前面已有讲解,这里我们直接介绍使用SPSS软件进行统计分析的过程。
(一)相关分析
例7某医生随机抽取了12名正常儿童的尿肌酐含量(mmol/24h)的资料,(见表7-1)。
试分析正常儿童年龄与尿肌酐含量之间有无直线相关关系?
。
表7-112名正常儿童的年龄与尿肌酐含量
编号
1
2
3
4
5
6
7
8
9
10
11
12
年龄X(岁)
13
12
11
8
9
10
6
11
10
8
12
7
尿肌酐含量Y
(mmol/24h)
3.54
3.23
3.01
2.60
3.09
3.42
2.48
3.23
3.36
2.56
3.18
2.65
建立数据文件:
变量包括:
num编号,X年龄,Y尿肌酐含量;
图18a:
数据文件格式
1.选择分析变量
按Analyze→Correlate→Bivariate顺序逐一单击鼠标键,展开BivariateCorrelations二元变量相关分析主对话框,如图18b所示,在主对话框左面的变量表中选择要求相关系数的两个变量X和Y。
再鼠标单击向右的箭头按钮,将选择的变量移至Variables矩形框中。
(1)在主对话框下部CorrelationCoefficients栏中列出了三种相关系数,分析人员可根据资料的性质选用:
①Pearson相关复选项,即简单相关系数;
②Kendall’stau-b复选项,即Kendall秩相关系数;
③Spearman相关复选项,计算斯皮尔曼秩相关系数。
图18b两变量相关分析主对话框
(2)选择单、双侧假设检验类型根据专业知识排除一侧可能性的时候可考虑用单侧检验,选One-tailed选项;否则,用双侧检验,选Two-tailed选项。
(3)FlagsignificantCorrelations复选项,如果选此项,输出结果在相关系数右上方式用“*”表示显著水平为5%;用“**”表示显著水平为1%。
本例中使用系统默认值进行相关分析。
单击OK按钮则得出输出结果,如表所示:
此表为变量X和Y之间的相关系数矩阵。
在行变量与列变量的交叉处纵向显示了3个数值:
变量X、Y之间的相关系数为0.851。
第二个数值是P值,P=0.000。
第三个数值是样本含量n,n=12。
(二)直
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 讲义