SPSS课件第5章.docx
- 文档编号:29980221
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:25
- 大小:150.44KB
SPSS课件第5章.docx
《SPSS课件第5章.docx》由会员分享,可在线阅读,更多相关《SPSS课件第5章.docx(25页珍藏版)》请在冰豆网上搜索。
SPSS课件第5章
第5章参数检验
从大体上说,统计方法分为描述统计和推断统计两大类,在前面的第3章,我们已经介绍了描述统计在统计学中的重要地位,并针对变量的不同尺度类型介绍了变量的描述统计方法,严格说来,第4章所将的信度分析也是描述统计的内容。
从本章开始,我们将接触推断统计内容了,描述统计和推断统计最大的区别在于描述统计仅仅针对样本数据进行处理,而推断统计要求从样本数据出发,推断其总体的性质,或者也可以这样认为,在描述统计中,并不是严格的区分总体和样本,而推断统计则要严格区分总体和样本。
下面我们简单介绍总体和样本的概念。
总体是指我们要研究的对象的全体,总体的组成对象称为总体单位。
在统计学上,特别是数理统计中,总体的性质是我们感兴趣的,也是我们想了解的,而此时实物对象(我们称为实物总体),在研究和调查时都不方便,不可能为了调查就把某些对象收集到一起,因此我们把我们要了解的总体某方面的特性进行量化,每个对象对应一个值,得到所有对象在该特性上的取值全体我们称为数值总体;在研究上数值总体比实物总体方便了许多,但是当研究对象特别多的时候,取值难免会重复,此时我们不再关心每个对象的取值了,而是关心有多少个对象取相同的一个值,即取值的频率,每个对象取值相应的变成了在若干取值上的频率,此时的总体我们称为分布总体,一个总体和一个分布等价。
经过统计学上的抽象,实物总体变成了分布总体,而众所周之,一个分布对应一个随机变量,因此统计上常用随机变量来表示总体,而给出一个总体的时候,通常也就是给出总体的分布哦!
样本是为了研究总体的性质从总体中选取的部分总体单位,根据是否采用随机原则选取样本,我们可以将样本分为随机样本和非随机样本,统计中基本都是研究随机样本。
所谓随机原则是指抽样时,每个总体单位都有同等被抽中的可能,根据这个原则,样本取各个值的分布应该和总体的分布相同,这就是数理统计中非常重要的一个性质:
样本与总体同分布。
随机抽样时,由于抽取样本前后不影响,所以样本是独立的,这又是数理统计中另一个重要性质:
样本之间相互独立。
这两个性质合在一起就是:
样本独立同分布于总体的分布。
随机抽样的方法很多,本书不一一介绍,有兴趣的读者可以参看统计学想关书籍。
对于样本的独立性读者应该可以理解,可是对于样本分布和总体分布相同,许多读者不能理解,这其实不难理解,根据随机原则,每个总体单位抽中的可能性相同,那么取某个值的总体单位越多,即某取值的频数越高,在抽样时,那个值出现的概率也越高,而其概率刚好等于那个取值的总体频率,因此,总体在某个值上的频率是多少,样本取那个值的概率就是多少,这不就是样本分布和总体分布相同了吗?
推断统计包括假设检验和参数估计两大部分内容,在SPSS中,假设检验分别给出参数假设检验和非参数假设检验对应的菜单操作,我们将在第5章和第6章分别介绍这两部分内容;而参数估计在SPSS中没有专门的菜单,都是分散各个菜单中,假设检验中也有参数估计的内容,我们在讲到相关内容时会给出提示,希望读者注意。
图5-1参数检验菜单
SPSS提供的参数检验主要集中在【CompareMeans】菜单中,如图5-1所示,主要有5各子菜单:
【Means】主要用于产生均值等描述统计量,和第3章描述统计的功能有些类似,请读者自行验证;
【OneSampleTTest】是指单样本t检验,主要用于完成从一个总体中抽取样本推断总体性质的假设检验;
【IndependentSampleTTest】是指独立样本t检验,主要完成从两个独立总体中抽样推断总体性质的假设检验;
【PairedSampleTTest】是指配对样本t检验,主要完成从两个配对总体中抽样推断总体性质的假设检验。
【One-wayANOVA】是指单因素方差分析,这部分内容我们将放在第8章方差分析介绍。
本章重点介绍中间的三项菜单,我们将结合具体例子分为三节内容来介绍,介绍每个菜单之前,我们都会强调该方法的适用范围,请读者在学习时一定要注意三种方法的区别,切实掌握每种方法的适用条件和操作。
5.1单样本t检验
单样本t检验是三种检验中最简单、最容易掌握的方法,因为它只涉及一个总体和样本。
在介绍单样本t检验之前,有必要给读者讲清假设检验的基本思想和一般步骤。
利用样本对总体进行推断主要基于两方面,一方面是在某些情况下,总体的情况无法获知,例如,对感冒患者的调查,总体就无法完全获知,即使能够获知,但是需要极大的代价,没有必要获知,例如,对居民消费价格的调查,就不必一定要获知总体情况;另一方面是通过随机原则抽取的样本中含有总体的信息,样本的确能够代表总体,利用数理统计的知识就能够用样本推断总体的信息。
因此,假设检验成为一种科学的推断总体性质的统计方法。
假设检验基于如下思想,首先假设总体具有某种性质,这种性质可能是某种分布,或者某个参数的取值,或者独立性等,根据上面所述,这种性质必然在样本中得到体现,因而我们可以推算在这种性质下样本观测值出现的概率,如果样本观测值出现的概率大,说明样本没有提供充分的证据推翻前面对性质的假设,此时不能拒绝假设,即认为总体具有此性质;当然,如果样本观测值出现的概率小,说明样本提供了充分的证据推翻了原来的假设,此时应该拒绝原假设,认为总体不具有此性质。
所谓样本观测值,即一次抽样中样本的取值,可以这样理解:
在实施抽样之前,我们并不能确定会抽中那个总体单位,此时样本取值是随机的;实施抽样后,一个总体单位被选中,这个总体单位的取值称为样本观测值,它是确定的,但是观测值仅仅是这次抽样的结果,是样本的一次实现;在下次抽样时,样本仍然是随机的,再次实现后又得到一个观测值,多次抽样后会得到一组样本观测值。
所谓样本提供的证据,其实就是样本观测值在总体假设下出现的概率,在假设检验中,我们实行“小概率推理”原则。
即认为小概率事件在抽样中不会发生,如果样本观测值在总体假设下出现的概率是一个小概率,那么根据小概率推理,在总体假设下,这种观测值不会发生,但是现在却发生了,这就说明原来的假设是错误的,因此,小概率就提供了我们拒绝原假设的证据。
相反,如果观测值发生的概率不是小概率,则没有提供拒绝原假设的证据,原假设就成立了。
这个想法类似于反证法,需要指出的是,我们计算概率时往往不是直接计算一组样本观测值出现的概率,因为这很困难,我们一般是借助样本的一种函数——统计量,来计算统计量观测值出现的概率。
还有一个问题是小概率的标准的确定,一般将这个小概率称为显著水平
,小于显著水平就是小概率。
显著水平
的确定和具体问题有关,不同的问题,我们对
的定义是不同的,一般认为
=0.05是常用的显著水平标准;对拒绝原假设条件放宽时,
可以适当增大,例如
=0.1;在有些情况下,例如航天、军工等,对
要求非常严格,一般
都在百万分之一以下。
我们阐述清楚了建设检验的推理步骤,接下来就说明假设检验的步骤:
1.提出原假设(记为H0)和备择假设(记为H1):
即对总体的性质给出一个假设,注意两个假设是对立的,不能有交集。
2.选择检验统计量:
即根据要检验的性质,提出一个样本统计量,样本统计量要不含未知的参数。
统计量的提出可以方便我们根据总体的分布得到统计量的分布。
3.根据统计量的分布,计算出样本观测值所对应的统计量观测值发生的概率,我们习惯上将这个计算出的概率称为“P值”,或者称为“观测到的显著水平”。
4.根据具体问题确定显著水平
,将P值和
做比较,作出决策,如果P值小于
,则说明小概率事件发生了,此时要拒绝原假设;相反,就不能拒绝原假设。
在SPSS参数检验中,原假设和备择假设都是事先确定的,这个在具体的菜单操作中我们再详细介绍,统计量都是t统计量,SPSS会根据t统计量的分布计算出P值,我们根据P值的大小就可以做出决策了。
在下面内容中我们将结合具体例子说明假设检验的步骤和结论分析。
5.1.1引例,单样本t检验解决的问题
在本小节中,我们主要讲解单样本t检验。
单样本t检验用于检验单个总体的均值,对于一个总体来说,其集中趋势或者说中心值是我们关心的,因此需要了解总体的均值,但是由于总体的不可知性,我们首先对总体均值的取值进行假设,然后对总体进行抽样,通过样本均值的情况来检验我们对总体均值的假设是否成立,根据前面的小概率原则,如果在我们假设的总体均值下,样本均值观测值出现的概率是小概率,那么说明总体均值的假设是错误的,反之,则说明总体均值的假设是可以接受的。
根据这个思想,可以构造单样本t检验的步骤:
第一步:
提出原假设,由于是对总体均值的假设,因此原假设可以写成:
,其中
代表总体均值,是未知的,而
是对总体均值的假设,即待检验的值。
第二步:
选择检验统计量并给出统计量的分布,假设总体服从正态分布,检验统计量是t统计量,其构成为:
,
其中S被称为修正的样本标准差,其定义为:
在原假设为真(即总体均值确实等于待检验值)的条件下,此统计量服从自由度为n-1的t分布。
第三步:
SPSS会根据样本观测值自动计算t统计量的观测值,并根据统计量的分布自动计算统计量观测值发生的概率(P值)。
第四步:
根据P值和我们事先确定的显著水平,就能够作出假设检验的决策了。
可见,在SPSS中,单样本t检验最重要的除了数据以外,就是指定待检验的值和确定显著水平,其余工作SPSS都会自动帮助我们完成。
下面我们就通过一个具体的例子来进行分析。
例5-1对于四川省各地市州2007年人均经济数据(见光盘5-1.sav),对人均可支配收入是否等于8500元,人均职工工资是否等于1500元。
对于本题,我们可以看到是对四川省各地市州的两个特性:
人均可支配收入和人均职工工资的均值进行检验,可以看作是对两个总体,即四川省各地市州人均可支配收入总体和四川省各地市州人均工资总体进行均值分别进行参数检验。
因此可以采用单样本t检验,待检验均值分别是8500元和1500元。
严格说来,单样本t检验都要对总体的正态性进行检验,看总体的分布是不是正态分布,此处限于篇幅省略了,读者可以利用前面讲过的Q-Q图或者P-P图自行验证!
5.1.2单样本t检验的SPSS实现
接下来我们就来看在SPSS中如何实现单样本t检验。
根据例5-1的叙述,我们进行如下操作:
Step1:
选择【Analyze】菜单→【CompareMeans】菜单→【OneSampleTTest】菜单
出现如图5-2所示对话框,将待检验变量“人均可支配收入(rjkzpsr)”选入检验变量框,在检验值框中输入待检验值8500。
图5-2单样本t检验主对话框图5-3选项子对话框
Step2:
完成置信水平的设置
点击主对话框的
按钮,进入选项子对话框,如图5-3所示,在置信区间“Confidenceinterval”框中指定置信水平,默认值为95%。
置信水平和显著水平相加等于1,因此如果显著水平为0.05,则置信水平为0.95。
当然在此选项框中还可以指定对缺失值的处理方式,点击
回到主对话框再点
。
此处指定置信水平,结果会输出按指定置信水平计算的置信区间,这是SPSS中求均值的置信区间的一种方法,当然,也可以在【Means】菜单中完成。
注意,此处不能把两个变量都选入待检验变量框,因为此处只能指定一个待检验值,只有检验值相同才可以将两个变量同时选入,如果检验值不同要分两次进行假设检验哦!
对于人均职工工资的检验是类似的操作,就留给读者完成了。
下面我们来看检验的结果。
5.1.3单样本t检验的结果分析
对于单样本t检验的结果比较简单,大家需要注意以下两个表格,表5-1列出均值的一些样本统计量,例如样本数为21,表明四川省有21个地市州,样本均值为10997.71元,样本标准差为1255.68元,样本均值的标准误差为274.01元。
表5-1有助于我们了解样本的一些特征,并和下面的结果进行比较。
表5-1One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
人均可支配收入
21
10097.714
1255.68245
274.01237
表5-2列出了假设检验的结果,是单样本t检验最重要的结果表格,表中主要有以下几项重要结果:
ØTestValue:
待检验值,即对总体均值的假设;
Øt:
表明t统计量的样本观测值,用于计算P值;
Ødf:
自由度,即t统计量的自由度20;
ØSig.(2-tailed):
双边检验P值,根据P值和显著水平的大小关系就可以得出是否拒绝原假设的结论了;
ØMeanDifference:
样本均值与待检验值的差,从这一项也可以计算样本均值;
Ø95%ConfidenceIntervaloftheDifference:
95%置信区间上下限与待检验值的差。
表5-2One-SampleTest
TestValue=8500
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceInterval
oftheDifference
Lower
Upper
人均可支配收入
5.831
20
.000
1597.71429
1026.1345
2169.2941
根据表格5-2,我们可以得出以下结论,人均可支配收入的样本均值是10097.71,与待检验值的差异是1597.71,检验t统计量的值为5.831,对应的双边检验P值小于0.0005(或者说接近0),如果我们确定显著水平是0.05,显然,在原假设下,样本观测值的发生是一个小概率事件,从而我们要拒绝原假设,认为人均可支配收入不等于8500元,而总体均值的95%置信区间为8500+1026.13到8500+2169.29,即区间(9526.13,10669.29)覆盖总体均值的概率为95%,即区间不包含总体均值的概率为5%。
这显然从另一个方面也说明了总体均值等于8500元是一个小概率事件,应该拒绝原假设。
注意,有些教材对于置信区间的叙述是总体均值落入置信区间的概率是95%,从严格意义上说这是不正确的,因为总体均值是常数而非随机变量,而置信区间因为是由样本均值决定,是随机变动的。
即,总体均值不变而区间在变动,因此准确的描述是区间覆盖总体均值而不是总体均值落入区间。
从上面的叙述我们可以看出,利用表5-2,我们既可以从P值来做出是否拒绝原假设的决策,也可以从置信区间来决策是否拒绝原假设,如果置信区间覆盖被检验值,表现为区间值异号,则不能拒绝原假设,反之,区间值同号,则拒绝原假设。
关于是使用双边检验还是使用单边检验,主要是看对总体均值有无偏大或偏小的先验信息,如果没有,则宜采用双边检验,当然,如果有先验信息,则应采用单尾检验。
例如,如果知道人均可支配收入可能较8500偏大,也可能等于8500元,但是不可能小于8500元,此时就应采用单边检验,原假设应更改为:
,其余步骤不变。
此时,SPSS只能计算双边的P值,单边P值需要我们手动计算,用双边P值除以2就得到单边P值,因此有时双边检验不显著,在单边检验中就是显著的了。
例如:
双边P值等于0.08,显著水平为0.05,显然观测值发生不是一个小概率事件,检验结果不显著,但如果是单边检验,单边P值等于0.04,此时检验结果显著,读者在处理假设检验问题时,一定要注意发掘其中是否有总体均值偏大或偏小的信息,从而采取正确的假设检验方法。
关于人均职工工资是否等于1500元的假设检验,我们列出结果,只做简短的解释说明。
表5-3One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
人均职工工资
21
1177.7362
896.96332
195.73344
表5-4One-SampleTest
TestValue=1500
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
人均职工工资
-1.646
20
.115
-322.26381
-730.5566
86.0290
表5-3列出检验变量的一些统计量,人均职工工资均值为1117.74元,标准差为896.96元,而均值的标准误差为195.73,以上统计量也可以在描述统计中获取,或者通过【Means】菜单计算。
表5-4列出检验的结果,检验P值为0.115,如果确定显著水平为0.05,则人均职工工资与1500元没有显著差异,不能拒绝原假设,置信区间为(1500-730.56,1500+86.03),即(769.44,1586.03)。
当然置信区间值的异号也说明不能拒绝原假设。
5.2独立样本t检验
本节主要讲述两独立样本的t检验,所谓独立样本,是指两个取值相互独立的总体,分别从两个总体中独立地抽取样本,得到两个样本,称为独立样本。
独立样本常用于比较两个总体的同一统计特征,例如均值,通过独立样本的统计检验,可以得知两个总体的均值是否有显著差异。
独立样本t检验主要用来检验两个独立总体的均值是否相等,此检验的前提条件是两个总体的分布都是正态分布并且总体是相互独立。
我们列出在此检验的一般步骤:
第一步:
提出原假设,由于检验两独立总体X、Y均值是否相等,因此原假设可以写成:
,其中
代表总体X的均值,而
是总体Y的均值,两总体的均值都是未知的。
第二步:
选择检验统计量并给出统计量的分布,假设总体服从正态分布,按照两个总体的方差是否相等,检验统计量t统计量有不同的构成:
第一种情况:
当两个总体的方差相等时,将两个总体的方差合并作为方差的估计。
称为修正的样本标准差
定义为:
其中,n1,n2分别代表两个独立样本的样本数,而
、
分别代表两个总体的修正样本方差。
t统计量的定义为:
在原假设为真(即总体均值确实等于待检验值)的条件下,此统计量服从自由度为n1+n2-2的t分布。
第二种情况,当两个总体方差不相等时,此时分别采用各自的方差,此时独立样本均值差其方差定义为:
,
统计量定义为:
当原假设为真时,此统计量服从修正自由度的t分布,修正自由度f定义为:
至此可见,两独立样本t检验,两总体的方差是否相等是决定如何计算的抽样分布方差的关键,因此,有必要通过有效的方式对方差是否相同进行检验。
SPSS中通过LeveneF方法采用F统计量进行检验,具体结果我们将在结果解释中说明。
第三步:
SPSS会根据样本观测值自动计算t统计量的观测值,并根据统计量的分布自动计算统计量观测值发生的概率(P值)。
第四步:
根据P值和我们事先确定的显著水平,就能够作出假设检验的决策了。
独立样本t检验关键是对两个总体进行分割,比较两个总体的方差是否相等,按照方差的情况采用对应的统计量、以及根据SPSS计算出的统计量观测值和相应的概率P值,进行统计决策。
5.2.1引例,独立样本t检验解决的问题
在经济统计中,独立样本t检验常用于检验不同类型的个人、企业、团体是否存在类型差异。
在本小节中,我们将通过具体的例子分析独立样本t检验主要是解决什么问题的,以及如何从具体问题中分析得出该采用独立样本t检验的方法来完成假设检验。
下面我们就来看具体的例子。
例5-2在关于促销方式对消费的影响力分析中,采取了两种促销方式,一种是利用派发传单、媒体广告等标准促销方式,一种是利用赠送试用品、通过举办大型活动等新型促销方式,先收集了两中方式的客户消费金额数据(见光盘数据5-2.sav),请分析两种促销方式的消费金额是否显著差异。
在这个例子中,我们要研究对同一特征——消费金额,在不同的促销方式下的均值是否相同。
我们根据促销方式划分了两个总体,一个总体是接受标准促销方式的消费者的消费金额,另一个总体是接受新型促销方式的消费者所消费的金额。
这个问题可以通过比较两个总体的均值来完成两个总体的比较,在此处我们用X和Y来表示两个总体,两种促销方式对消费者的影响可以认为是相互独立的,同时我们假设两个总体都服从正态分布,这也基本符合消费的习惯,毕竟消费金额特别高或特别低的消费者都是少数。
综上所述,此问题适合用独立样本的t检验来解决,问题的假设可以写成:
首先根据样本验证两个总体方差是否相等,再根据方差的情况构造如5.2所述的t统计量,根据t统计量样本观测值所对应的P值,就可以完成上述的独立样本均值检验了,下面我们来看具体的实现步骤。
5.2.2独立样本t检验的SPSS实现
根据上面的叙述,我们打开文件5-2.sav,实施如下的操作步骤:
Step1:
选择【Analyze】菜单→【CompareMeans】菜单→【IndependentSampleTTest】菜单
在图5-4对话框中,将待检验的变量“促销期间的花费(dollarrs)”选入检验变量框TestVariabile(s):
,这里是一个复选框,可以同时进行两个总体多个特征的比较,例如可以比较促销间花费的均值,如果有客户收入,还可以比较总体见收入的差异,在此处我们只比较促销之间花费的均值,因此只将一个变量选入检验变量框;
分界值分组
图5-4独立样本检验主对话框图5-5总体分组对话框
Step2:
利用总体分组变量对总体进行分组
将分组变量“受到的促销类型(insert)”选入总体分组变量框GroupingVariable中,点击下面的
进入图5-5总体分组对话框,这里有两种供选择的方式设置总体分组:
ØUsespecifiedvalues:
利用两个总体在分组变量上的特定取值来分组,即在分组变量上,一个总体取值全为1,另一个总体取值全为0(或2),用这两个特定取值来区分不同总体,这种分组方式使用于分组变量只取两个值的情形;
ØCutpoint:
利用一个分界值将总体分开,指出一个分组分界值k,分组变量的取值大于k所有案例被分为一组,分组变量的取值小于k的其他案例被分为另外一组,此种分组方式适用于分组变量取值较多,又比较容易确定一个分组分界值的情形。
本题由于分组变量只区0和1两个值(分别代表标准促销方式和新型促销方式),因此我们选择第一种分组方式,选择两个总体对应的取值0和1,点击
回到主对话框图5-4。
当然,在主对话框中,还可以通过
按钮进入图5-3设置置信水平,以便给出置信区间,完成设置以后点击
。
注意,此处分组变量只有一个,因此只能分成两组,如果要进行两个总体多个特性的建设检验,要求对于每种特性两个总体的分组标准都是一样的,如果总体对不同特性分组不同,需要对每一个特性分别分组进行检验。
5.2.3独立样本t检验的结果解释
下面我们对独立样本t检验的SPSS输出结果进行分析和解释,使大家掌握如何利用SPSS完成独立样本的假设检验。
首先出现的还是一个待检验变量的信息表格,表5-5中,分总体给出了促销期间花费的一些统计量,例如两个总体的样本案例数都是250个,采用标准促销方式的总体,平均花费是1566.38元,标准差是346.67元,均值的标准误差是21.93元,采用新促销方式的总体,平均花费1637.5元,标准差是356.70元,均值的标准误差是22.56元。
这个表中中的数据可以给我们一些启发,根据数据,两个总体的平均花费差异不大,标准差也接近,应该是同方差的两个总体,但是均值标准误差很
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 课件