第二章非参数统计分析.ppt
- 文档编号:2659630
- 上传时间:2022-11-05
- 格式:PPT
- 页数:70
- 大小:634KB
第二章非参数统计分析.ppt
《第二章非参数统计分析.ppt》由会员分享,可在线阅读,更多相关《第二章非参数统计分析.ppt(70页珍藏版)》请在冰豆网上搜索。
第二章单样本非参数检验2022/11/51思考的要点各种检验方法的思路各种检验方法统计量的构造各种检验方法的应用场合在SPSS与R中如何完成2022/11/52第一节第一节卡方检验卡方检验第二节第二节二项分布检验二项分布检验第三节第三节单样本的单样本的KSKS检验检验第四节第四节符号检验符号检验第五节第五节Cox-StuartCox-Stuart趋势检验趋势检验第六节第六节游程检验游程检验第七节第七节WilcoxonWilcoxon符号秩检验符号秩检验2022/11/53第一节Chi-Squaretest卡方检验卡方检验通常称为拟合优度检验。
主要是通过样本观测值检验总体是否服从某个分布。
如果数据是连续的,需要将连续的分布进行分段,计算每段的期望概率与观测到的频率之间是否差异很大。
在SPSS中的Chi-Squaretest,主要是对离散的总体进行拟合优度检验。
2022/11/54在实际问题中,会遇到必须了解总体的分布函数的时候,这时利用样本资料对总体的分布函数进行检验就成了非常重要的了。
我们需要检验总体的分布函数F(x)是否等于某个给定的函数F0(x),可以根据经验来确定。
其中含有未知参数时,应利用样本资料采用点估计求得后,再进行检验。
一、2拟合优度检验2022/11/55【例1】某金融系统贷款的偿还类型有四种,各种的预期还率为80%、12%、7%和1%。
在一段时间的观察记录中,A型按时偿还的有380笔、B型偿还有69笔、C型有43笔、D笔有8笔。
问在5%显著性水平上,这些结果与预期的是否一致。
0.05。
解:
这个问题属于要检验每一类型的出现概率与理论期望概率是否相等,即检验2022/11/56根据显著性水平,有,由于表明5%的显著水平下,不能拒绝原假设,即观测的比率与期望的比率一致。
类型A380400-204001.00B69609811.35C43358641.83D85391.80合计500500_5.982022/11/57
(1)提出统计假设由统计假设出发,将总体取值范围分为m个互不相容的小区间:
如果分布是连续的其检验步骤为:
区间个数以714为宜。
然后,统计出每个区间内样本点的数目fi,再用pi表示变量在第i个区间的概率,2022/11/58在原假设为真的条件下,这个统计量近似地服从具有m1r个自由度的2分布,其中r是需要用样本来估计的总体的未知参数的数目,若没有未知参数需要估计,则r为零。
(2)选择适当统计量2022/11/59(3)由给定的显著性水平,查表确定临界值(这种检验是右侧检验)。
(4)利用样本值计算实际频数,再计算经验概率,据以计算的值(5)作结论,若,则拒绝原假设,即认为总体的分布函数不为;反之,则接受原假设,即认为总体的分布函数为。
2022/11/510卡方检验的窗口,SPSS的卡方检验主要用来检验离散随机变量的分布。
2022/11/511卡方检验的窗口。
2022/11/512P值大于0.05,结果说明还贷情况与预期是一致的。
2022/11/513【练习1】盒中有5种球,重复抽取200次(每次抽1个球)各种球出现的次数见下表。
问盒中5种球的个数是否相等?
显著水平=0.05。
种别fi1234535404338442002022/11/514二项分布检验二项分布检验(binomialtest)(binomialtest)是通过考察二分类是通过考察二分类变量的每个类别中观察值的频数与特定二项分布下变量的每个类别中观察值的频数与特定二项分布下的期望频数之间是否存在显著差异,来判断抽取样的期望频数之间是否存在显著差异,来判断抽取样本所依赖的总体是否服从特定概率为本所依赖的总体是否服从特定概率为pp的二项分布。
的二项分布。
二二项项分分布布检检验验的的原原假假设设是是:
抽抽取取样样本本所所依依赖赖的的总体与特定的二项分布无显著差异。
总体与特定的二项分布无显著差异。
如果检验的如果检验的pp值小于值小于0.050.05,则拒绝原假设。
,则拒绝原假设。
第二节第二节二项分布检验二项分布检验2022/11/515【例2】根据以往的生产数据,某种产品的合格率为90%。
现从中随机抽取25个进行检测,合格品为20个。
检验该批产品的合格率是否为90%?
(产品合格率产品合格率XXBB(nn,0.9),0.9)SPSSSPSS的数据格式的数据格式表中的“1”表示合格品;“0”表示不合格品合格品合格品频数数120052022/11/516第第1步步:
指定“频数”变量:
点击【Data】【Weight-Cases】,将“频数频数”选入【FrequencyVariable】【OK】第第2步:
步:
选择【Analyze】【NonparametricTests-Binomial】选项进入主对话框第第3步:
步:
将待检验的变量选入【TestVariableList】(本例为“合格品”)第第4步:
步:
在【TestProportion】中输入检验的概率(本例为0.9),点击【OK】(SPSSbinomialtest)2022/11/517SPSS的输出结果表中的合格品的观察比例为0.8,检验比例为0.9。
精确单尾概率为0.098,它表示如果该批产品的合格率为0.9,那么25个产品中合格品数量小于等于20个的概率为0.098。
P0.05,不拒绝原假设,没有证据表明该批产品的合格率不是0.92022/11/518【练习2】某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。
问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?
2022/11/519单样本的K-S检验(Kolmogorov-Smirnov检验)是用来检验抽取样本所依赖的总体是否服从某一理论分布。
其方法是将某一变量的累积分布函数与特定的分布进行比较。
设总体的累积分布函数为F(x),已知的理论分布函数为F0(x),则检验的原假设和备择假设为H0:
F(x)=F0(x);H1:
F(x)F0(x)原假设所表达的是:
抽取样本所依赖的总体与指定的理论分布无显著差异。
SPSS提供的理论分布有正态分布、Poisson分布、均匀分布、指数分布等。
第三节总体分布类型的KS检验2022/11/520检验统计量当H0成立且无抽样误差时,统计量D等于0。
因此:
当D的实际观测值较小时,可以认为零假设H0成立;当D的观测值较大时,则零假设H0可能不成立。
其中Fn(x)称为经验分布。
假定有样本1,1,2,2,2,4,5,5,5,10。
其经验分布为2022/11/521【例3】对某汽车配件提供商提供的10个样本进行检测,得到其长度数据如下(单位:
cm)检验该供货商生产的配件长度是否服从正态分布?
(=0.05)总体分布类型的检验(K-S检验)12.210.812.011.811.912.411.312.212.012.32022/11/522第第1步:
步:
选择【Analyze】【NonparametricTest】【1-SampleK-S】进入主对话框;第第2步:
步:
将待检验的变量选入【TestVariableList】(本例为“配件长度”);第第3步:
步:
点击【Exact】,并在对话框中选择【Exact】,点击【OK】。
总体分布类型的检验(SPSSK-S检验)2022/11/523正态分布正态分布均匀分布均匀分布指数分布指数分布波松分布波松分布2022/11/524SPSSSPSS的输出结果的输出结果精精确确双双尾尾概概率率为为0.6020.050.6020.05,不不拒拒绝绝原原假假设设。
没没有有证证据据表表明明该该供供货货商商提提供供的的汽汽车车配配件件长长度度不服从正态分布不服从正态分布2022/11/525【练习3】某市记录了91天市区内发生交通事故的分布情况如下:
一天发生的事故数0123456及以上天数2035168750利用SPSS检验该数据可能的分布。
用SPSS,在正态、均匀、指数和泊松分布中选择。
2022/11/526符号检验的统计量为B=得正号的个数。
符号检验符号检验。
设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。
且分布函数F(X)在X=0是连续的。
假设检验问题检验的统计量可以取B。
第四节第四节符号检验符号检验在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)。
由于原假设为真时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。
2022/11/527精确的符号检验是指检验的p值是由精确的概率给出的。
我我们们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。
【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下。
一、精确中位数的符号检验一、精确中位数的符号检验2022/11/528有人说64应该是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验。
数据如下:
122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.82022/11/5292022/11/530通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。
然而,在本例中,总体分布是未知的。
为此,首先看该数据的直方图从图中很难说这是什么分布。
假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应该与取小于me的概率相等。
所研究的问题,可以看作是只有两种可能“成功”或“失败”。
2022/11/531符号检验的思路,记成功:
X-0大于零,即大于中位数M,记为“+”;失败:
X-0小于零,即小于中位数M,记为“-”。
令S+=得正符号的数目S=得负符号得数目可以知道S+或S均服从二项分布B(65,0.5)。
则可以用来作检验的统计量。
其假设为:
2022/11/532关于非参数检验统计量需要说明的问题在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S+S-=N。
那么我们在检验时应该用那个呢?
我们选择统计量2022/11/533假设检验统计量S-=28是得负号的个数得正号的个数43。
P-值检验的结果拒绝零假设结论中位数大于642022/11/534该检验R的代码x-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sig
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 参数 统计分析