第6章 假设检验.docx
- 文档编号:30298628
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:20
- 大小:259.18KB
第6章 假设检验.docx
《第6章 假设检验.docx》由会员分享,可在线阅读,更多相关《第6章 假设检验.docx(20页珍藏版)》请在冰豆网上搜索。
第6章假设检验
第六章假设检验
运用一定的统计方法进行数据分析时,常常要求数据满足一定的条件,比如正态性、方差齐性、独立性等。
数据是否满足假设,需要检验。
在总体分布函数完全未知或只知分布形式,但是不知其参数时,为了推断总体的某些性质,需要提出关于总体的假设。
假设是否合理,需要检验。
假设检验几个概念需要掌握:
1.原假设(零假设)、备择假设
假设现在显著性水平
下,检验总体均值
是否等于样本均值
,即检验假设:
,
则称
为原假设,称
为备择假设。
2.拒绝域、临界点
当检验统计量取某个区域的值时候,拒绝原假设,则称该取值区域为拒绝域,称拒绝域的边界为临界点。
3.第一类错误、第二类错误
当零假设实际上为真,却拒绝零假设时所犯的错误称为“弃真”错误,或第一类错误;当零假设实际上不为真,却接受零假设时所犯的错误称为“取伪”错误,或第二类错误。
4.双边检验、单边检验
对于上面的假设问题,如果备择假设表示
可能大于
,也可能小于
,则称这种假设检验为双边检验;如果备择假设表示
可能大于
,或可能小于
,则称这种假设检验为单边检验。
第一节t检验
t检验是用小样本检验总体参数,特点是在均方差不知道的情况下,可以检验样本平均数的显著性。
一、单样本的均值检验
(1)基本数学原理
对于单个正态总体并且方差未知的情况,用下面的统计量来检验其平均数(假设样本均值与总体均值相等,即
)。
当原假设成立时,上面的统计量应该服从自由度为n-1的t分布。
(2)SPSS实现
用鼠标指向Analyze主菜单中的CompareMeans选项,然后在打开的子菜单单击One-SampleTTest选项,打开One-SampleTTest对话框。
如下图。
根据实际需要对对话框及其次级对话框进行设置,可以进行单个正态样本的均值检验。
Test列表框:
用中间的向右箭头按钮从左边的原变量名列表框中将变量名转移到该列表框中,则对应变量名对应的变量数据将进行均值检验。
Test文本框:
在该文本框中输入总体均值,默认数为0;
Options按钮:
单击该按钮,打开One-SampleTTest:
Options对话框,利用该对话框设置检验时采用的置信度和缺失值的处理。
Confidence文本框:
在该文本框中输入50到99之间的数值,作为置信度,默认数值95;
MissingValues方框:
在该方框中选择缺失值的处理方式,有两个选项:
※Excludecasesanalysisbyanalysis单选框为默认选项,在需要分析的数据中删除含有缺失值的个数;
※Excludecaseslistwise单选框在需要分析的数据中删除所有缺失值的数据;
二、独立样本的均值比较
应用t检验,可以检验独立的正态总体下样本均值之间是否有显著差异。
检验前,要求进行比较的样本相互独立,并且服从正态分布。
因此需要首先对将要进行均值比较的样本作独立性检验和正态分布检验。
独立性检验的方法和步骤参见后面介绍的“独立性检验”方面的内容,正态分布检验参见后面的“分布的检验”和“正态分布的检验”等部分。
(1)基本数学原理
进行两个独立正态分布总体下的样本均值的比较时,根据芳差齐性与不齐两种情况,应用不用的统计量进行检验。
方差不齐性时,统计量为:
式中,
,
表示样本1和2的均值,
,
为样本1和2的方差,
,
表示样本1和样本2的数据个数。
方差齐时候,采用的统计量为:
式中,
为两个样本的标准差,是样本1的方差和样本2的方差的加权平均值的方差,计算公式如下:
当两个总体的均值差异不显著时,该统计量应该服从自由度为m+n-2的t分布。
(2)SPSS实现
在数据编辑器中打开欲处理的数据文件以后,用鼠标指向Analyze菜单的子菜单CompareMeans。
。
。
选项,然后单击打开IndependentSamplesTTest。
。
。
选项,打开IndependentSamplesTTest对话框,如图所示:
IndependentSamplesTTest对话框的含义有:
·Test列表框:
在该列表框内输入变量名,将对该变量的数据进行t检验;
·Grouping文本框:
在该文本框中输入变量,将在该变量名字后显示括号,并在括号内显示两个问号。
用DefineGroup按钮进行设置,把该变量的数据分成两类,对这两类数据进行t检验。
·DefineGroups按钮:
单击该按钮,将根据Grouping文本框中变量的变量类型的不同,打开不同的对话框:
当Grouping文本框中的变量为分类变量时,打开下图,在两个Group文本框中输入欲检验的数据对应的分类变量取值,单击Continue按钮,回到IndependentSamplesTTest对话框。
当Grouping文本框中的变量为度量变量时,打开下图,此时DefineGroups对话框中有两种数类定义方式。
·Usespecifiedvalues单选项:
选择此项,该文本框下面两个文本框变为可用,在其中输入不同的变量值,则不同变量值对应的数据将成为检验的对象。
·Cutpoints单选项,在该文本框中输入数值,则把数据分为两组,一组为大于或等于的作为一组,另外一组则是小于的数据为一组,对两组进行检验。
·Options单选项:
单击该按钮,打开IndependentSamplesTTest:
Options对话框,进行参数设置。
三、成对样本的均值比较
观测数据常有配成对子的情况,如用不同的公司治理研究企业经营效应,股票价格的效应分析等,应用t检验可以成对样本的均值进行比较。
(1)基本数学原理
成对样本的均值比较t检验假设这两个样本的均值差异为零,用于检验的统计量为:
式中,n-1为自由度,n为数据对数目。
(2)SPSS实现
在数据编辑器中打开欲处理的数据文件以后,用鼠标指向Analyze菜单的子菜单CompareMeans选项,然后单击打开Paired-SamplesTTest选项,打开PairedSamplesTTest对话框,如图所示:
在Paired-SamplesTTest对话框中,在源变量列表框中连续选择并单击变量名,则所选择的变量名显示到CurrentSelection方框中。
用向右箭头按钮可以将配对变量名转移到PairedVariables列表框中,其数据作为配对样本均值比较的对象。
在该列表框中可以输入多对变量名。
单击Options按钮,打开Paired-SamplesTTest:
Options对话框,可以参照说明设置参数。
第二节分布检验
进行数据处理时,常常假定样本数据服从一定的分布,但是数据是否服从该分布,需要进行检验。
分布检验的方法,用得最多的是非参数方法,如卡方优度检验、柯尔默哥洛夫-斯米若夫检验等。
非参数检验方法的具体内容和操作步骤可以参考参数检验。
一、用P-P图进行分布检验
用P-P图形以及无趋势P-P图形可以对样本数据分布的假设进行检验,下面通过一个例子说明其使用过程。
·在数据编辑器中打开测试数据文件;
·在Graphs主菜单中单击P-P选项,打开P-PPlot对话框;
·在Variables列表框中输入变量名,在TestDistribution方框中选择测试分布函数,例如Uniform选项;
·单击OK。
在P-P图形中,当数据服从所假设的分布时候,各个数据对应的点在图中右斜对角位置近于直线分布。
在无趋势P-P图形中则呈现离散分布。
利用P-P图形可以对多种分布类型进行检验,只需要在TestDistribution方框中选择测试分布函数。
当原数据不服从假定的分布时,则各数据对应的点在图形中不近于斜对角直线分布。
二、用Q-Q图进行分布检验
利用Q-Q图形和无趋势Q-Q图形,同样可以对样本数据的分布假设进行检验。
方法和步骤与用P-P图形进行检验的方法和步骤基本相同。
所不同的是在Graphs主菜单中单击Q-Q选项,打开Q-QPlots对话框中TestDistribution方框中选择分布函数。
第三节正态分布假设检验
由于许多数据的处理过程中都需要数据服从正态分布,因此现在专门对此进行研究,检验可以运用非参数检验的方法,也可以运用P-P图和Q-Q图方法。
关于非参数检验方法可以在后面的章节中介绍。
一、用Explore过程检验正态分布
在Explore:
Plots中,运用对话框中的Normalityplotswithtests核选框,将生成正态检验表、Q-Q图和无趋势Q-Q图,对指定的数据进行检验。
系统对选定的所有变量的数据进行柯尔莫哥洛夫-斯米若夫检验,对于样本大小小于等于50的还要进行Shapiro-Wilk检验,另外还有Lilliefors检验,这是柯尔莫哥洛夫-斯米若夫检验的修正版本,它允许均值和方差未知,进行检验时候参数是来自于样本的,而不是事先指定的。
·依次选择Analyze->DescriptiveStatistics->Descriptive菜单项,打开Explore对话框。
·在DependentList列表框中输入变量名;
·单击Plots按钮,打开Explore:
Plots对话框;
·选择Normalityplotswithtests核选框;
·单击Continue按钮,回到Explore对话框;
·单击OK按钮,生成正态分布检验表和Q-Q图和无趋势Q-Q图。
二、峰度-偏度检验(Jarque-Bera检验)
如果样本数据服从正态分布,则数据的峰度-偏度应该接近于零,可以从样本描述中得到样本的峰度和偏度。
·在数据编辑器中打开数据文件;
·依次选择Analyze->DescriptiveStatistics->Descriptive菜单项,打开Descriptive对话框;
·再依次选择Analyze->DescriptiveStatistics->Descriptive菜单项,打开Explore对话框。
·在Variables列表框输入变量名Distance;
·单击Options…按钮,打开Descriptive:
Options对话框;
·选择Kurtosis和Skewness核选框;
·单击Continue按钮,回到Descrptive对话框;
·单击OK按钮。
因为Kurtosis和Skewness都不接近于0,可见不属于正态分布。
三、数据不服从正态分布时的处理
当数据不服从正态分布或正态分布的拟合程度比较差的时候,一种可行的方法是进行数据转换。
(1)常用的数据转换方法
常用的数据转换方法主要是平方根变换、对数变换、Fisher的Z变换和幂变换等等。
其中,计算数据利用平方根变换更加接近于正态分布,比例形式的数据采用对数变换更有效,Z变换适用于相关系数。
幂变换有两个系列变换,小于1的幂使得大值减小,大于1的幂使得大值增大。
选择幂变换时,应该选择考虑边缘分布的散点图和直方图,并决定是否要对较大的值进行减小处理,以改进均值的对称性。
经过变换以后的数据最后还要用Q-Q图或者其他方法加以检验,直到变换后的数据满足正态假设的条件。
(2)SPSS实现
※单击Transform主菜单中的Compute选项,打开ComputeVariable对话框,然后利用该对话框中的选项对原数据进行转换并且生成新的变量。
对话框中各个选项的意义不再赘述。
※用P-P图和Q-Q图检验时,在P-P图和Q-Q图对话框的Transform方框中进行选择,确定数据转换方式。
第四节方差齐性检验
在某些数理统计过程中,要求比较的两组或多组数据的方差相等,或者称方差齐,因此,需要在运行过程之前对样本数据作方差齐性检验。
一、基本数学原理
方差齐性的检验方法有多种,包括Hartley检验、Cochran检验、Barlett检验和Levene检验等,其中前面两个检验方法适用于等重复试验的情况,后两个方法可用于非等重复试验的情况。
Levene检验不要求样本数据服从正态分布,而前三种方法则对样本数据有正态分布的要求。
Hartley检验又称为最大F比检验,检验统计量为:
其中,n为样本大小,Si2(i=1,2,…,n)为各个正态总体的样本方差。
Cochran检验又称为最大方差检验,检验统计量为:
Barlett检验可用于非等重复试验的情况,其统计量为:
当方差齐时,该统计量服从自由度n-1的
分布。
由于Levene检验不要求样本数据服从正态分布,其应用的面比较上面三种方法要宽的多,因子在新版本的SPSS中基本上采用这一方法,而摈弃前面三种方法。
二、SPSS实现
SPSS中提供了多个过程和多种方法进行方差齐性检验。
(1)有的过程在运行过程中自动进行方法齐性检验,并且给出检验结果,例如前面介绍的t检验。
用户可以根据实际情况选择方差齐性或者不齐的那一组统计量作为最终计算结果。
(2)利用数据探察过程进行检验。
在Explore:
Plots对话框中的SpreadvsLevelwithLeveneTest方框内选择选项,可以对样本方差进行检验和数据转换,其意义为:
·None单选项选择此项,将不生成幅度-水平图,不进行方差齐性检验;
·Powerestimation单选项选择此项,将要对幂变换的幂次作出估计,并且生成一组散点图,该散点图的横坐标和纵坐标分别为每一次级分组对应数据的四分位的自然对数和中位数的自然对数。
·Transformed单选项选择此项,后面的Power下拉式列表中变为可用,在其中进行选择,确定为方差齐性需要作出的变换类型。
Cube立方Square平方Squareroot平方根Logarithm对数
Reciprocalofsquareroot负的平方根Reciprocal倒数
·Untransformed单选项选择此项,将不对原数据进行转换。
(3)方差不齐时的处理
方差不齐性时候,有两种方法可以对数据进行处理,即非参数方法和数据变换的方法。
其实在上面已经说明,即进行转换。
第五节线性检验
利用Means过程可以进行变量数据之间的线性检验,即检验之间是否存在线性相关关系。
一、对话框介绍
用鼠标指向Analyze菜单条中的CompareMeans选项,然后在打开的子菜单中单击Means选项,打开Means对话框,如下图所示。
·Dependent列表框:
在该列表框中输入变量名,对应变量为因变量;
·Independent列表框:
在该列表框中输入变量名,对应变量为自变量;
·Next按钮:
单击该按钮,随后输入的变量名对应的变量将被添加到后一级层中。
重复该按钮的操作,可以创建多个层。
·Previous按钮:
单击该按钮,显示前一级层中的变量;
·Options按钮:
单击该按钮:
打开Means:
Options对话框,意义如下:
※Statistics列表框:
在该列表框中列出了多个统计量进行选择,可以选择的有:
Median中值
GroupedMedian组中值
Std.ErrorofMean均值的标准误差
Sum和
Minimum最小值
Maximum最大值
Range极差
First第一个值
Last最后一个值
Variance方差
Kurtosis峰度
Std.ErrorofKurtosis峰度误差
Skewness偏度
Std.ErrorofSkewtosis偏度误差
HarmonicMean调和平均值
GeometricMean几何平均值
PercentofTotalSum各个分组中的数目占总数的比例
PercentofTotalN各个分组中的个案数占总个案数目的比例
※Cell列表框:
在其中有三个选项,即均值Mean,个案数NumberofCases和标准离差StandardDeviation
※Anovatableandata:
选择此项,将对第一层的变量数据生成方差分析表
※Testforlinearity:
选择此项,将进行线性检验
二、SPSS演示
第六节独立性检验
某些数理统计过程要求准备样本或者变量相互独立的,例如前面进行独立样本的均值检验,就需要首先检验样本的独立性。
样本的独立性检验有多种方法,这里主要介绍列联表检验法和似然比检验法。
下面用一个具体例子说明SPSS的操作。
·在编辑器打开数据;
·依次选择Analyze-DescriptiveStatistics-Crosstabs,打开Crosstabs对话框,如图所示:
·单击Statistics按钮,打开Crosstabs:
Statistics对话框,如下图所示:
·选择Chi-square核选框;
·单击Continue按钮,回到Crosstabs对话框;
·单击OK按钮。
注意:
脚注中说明没有单元的期望频数小于5,最小的频数为12.30。
所谓单元的期望频数就是数据落在列联表中该单元内的个数,用可能落在单元内的概率乘以样本大小得到。
研究显示,应该没有单元的期望频数小于5,检验结果才是可信的。
显示,本例符合上述要求。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 假设检验