书签分享收藏举报版权申诉 / 116

立即下载加入VIP,免费下载

当前位置：首页 > 考试认证 > 司法考试 > 非参数统计讲义二--单样本模型.ppt

非参数统计讲义二--单样本模型.ppt

文档编号：2699090
上传时间：2022-11-08
格式：PPT
页数：116
大小：3.25MB

非参数统计讲义二--单样本模型.ppt

《非参数统计讲义二--单样本模型.ppt》由会员分享，可在线阅读，更多相关《非参数统计讲义二--单样本模型.ppt（116页珍藏版）》请在冰豆网上搜索。

非参数统计讲义二--单样本模型.ppt

符号检验法符号检验法符号秩检验符号秩检验随机游程检验随机游程检验卡方拟合检验卡方拟合检验主要内容符号检验的现实背符号检验的现实背景景现实中很多问题可以化成投掷硬币模型分析，正现实中很多问题可以化成投掷硬币模型分析，正面（头象面（头象heads）为正，反面（币值）为正，反面（币值tails）为负。

）为负。

例如：

用于确定人们驾车是否超限速，抽样车超速例如：

用于确定人们驾车是否超限速，抽样车超速用用“正号正号”；不超速用；不超速用“负号负号”。

例如：

比较两个品牌产品，顾客只需求说出或标出例如：

比较两个品牌产品，顾客只需求说出或标出所偏好的品牌用所偏好的品牌用“正号正号”，否则为，否则为“负号负号”。

Signtest符号检验是一种在只能得到定类数据时确认两符号检验是一种在只能得到定类数据时确认两个总体间差异的非参数统计方法。

个总体间差异的非参数统计方法。

1、以对定类数据的分析为基础，、以对定类数据的分析为基础，2、用于判断两总体间的差异。

、用于判断两总体间的差异。

检验假设：

如果根据样本得到的正负号数有很大差异如果根据样本得到的正负号数有很大差异，就有理由拒绝就有理由拒绝H0，认为两个样本的数据有显，认为两个样本的数据有显著差异。

著差异。

在小样本的情况下，在小样本的情况下，n个样本出现个样本出现K个个“+”的的概率服从二项分布。

概率服从二项分布。

（1）在双侧检验中，假设为）在双侧检验中，假设为无论出现过多的无论出现过多的“+”或过少的或过少的“-”号都号都能导能导致拒绝致拒绝H0。

EXCEL中用中用binomdist（k,n,p,1）求累计概率求累计概率

（2）在单侧检验中，假设为）在单侧检验中，假设为则出现过少的则出现过少的“+”号将号将能导致拒绝能导致拒绝H0。

K这这“+”的数目。

的数目。

（3）在单侧检验中，假设为）在单侧检验中，假设为则出现过少的则出现过少的“-”号将能导致拒绝号将能导致拒绝H0。

些时检。

些时检验统计量验统计量K为为“-”号的数目。

号的数目。

例：

两种品牌桔汁，让例：

两种品牌桔汁，让12个人品尝未加标签的样个人品尝未加标签的样本，在品尝后说出在两个品牌中偏好那一个品牌本，在品尝后说出在两个品牌中偏好那一个品牌。

研究目的是确定两种品牌中消费者是否偏好某。

研究目的是确定两种品牌中消费者是否偏好某一个。

一个。

假设假设H0:

P1/2,H1:

P1/2若无法拒绝若无法拒绝H0，则没有证据表明两种品牌桔汁，则没有证据表明两种品牌桔汁的偏好有明显差异。

的偏好有明显差异。

若拒绝若拒绝H0，则认为消费者对两种品牌存在差异。

，则认为消费者对两种品牌存在差异。

如何用符号检验的小样本形式来检验假设。

为了记录参与这项研究的确切个人的偏好数为了记录参与这项研究的确切个人的偏好数据，若用加号表示偏好据，若用加号表示偏好A品牌，用减号表示偏品牌，用减号表示偏好好B品牌。

品牌。

大多数消费者选出的品牌是认为最受欢迎的。

由于数据用加，减号记录所以称符号检验由于数据用加，减号记录所以称符号检验个人号个人号符号符号1-12-13-14-15-16-17-18+19+110-111-112-1正号的个数为正号的个数为2，概率小于概率小于0.05。

说明顾客偏好存在说明顾客偏好存在差异，差异，B比比A好好（要除去相等（相（要除去相等（相同）的样本。

）同）的样本。

）概率概率加号个数加号个数BINOMDIST（B3,12,0.5,0）00.00024410.0029320.01611330.05371140.1208550.19335960.22558670.19335980.1208590.053711100.016113110.00293120.000244显著性水平显著性水平0.05，加号个数大于，加号个数大于10的概率（等于的概率（等于小于小于2的概率）的概率）0.003418，小于，小于0.05，认为有显认为有显著差异。

著差异。

Dataexa1;Inputx;Datalines;-1-1-1-1-1-1-111-1-1-1;procunivariatedata=exa1;varx;run;UNIVARIATE过程过程变量变量:

x矩矩N12权重总和权重总和12均值均值-0.6666667观测总和观测总和-8标准偏差标准偏差0.77849894方差方差0.60606061偏度偏度2.05523721峰度峰度2.64未校平方和未校平方和12校正平方和校正平方和6.66666667变异系数变异系数-116.77484标准误差均值标准误差均值0.22473329基本统计测度基本统计测度位置位置变异性变异性均值均值-0.66667标准偏差标准偏差0.77850中位数中位数-1.00000方差方差0.60606众数众数-1.00000极差极差2.00000四分位极差四分位极差0位置检验位置检验:

Mu0=0检验检验-统计量统计量-P值值-学生学生tt-2.96648Pr|t|0.0128符号符号M-4Pr=|M|0.0386符号秩符号秩S-26Pr=|S|0.0386Inasampleof100butterflies,wefound35malesand65females.Canweconcludethatthereare,ingeneral,moremalesthanfemales?

Thenumberoffemalebutterfliesinasamplesif100animalsfollowsabinimialdistributionB（100,p）andwewanttotestthenullhypothesisH0:

“p=0.5”againstthealternativehypothesisH1:

“pdifferentfrom0.5”.binom.test（35,100,.5）R软件计算二项分布软件计算二项分布R语言程序n次试验，成功小于等于y次，p=0.5pbinom（y,n,.5）x1=c（-1,-1,-1,-1,-1,-1,-1,1,1,-1,-1,-1）n=length（x1）;m=sum（x1.005）pbinom（m,n,.5）summary（x）binom.test（m,n,.5）正态近似正态近似,R程序程序N=100,p=0.5,k=45正态参数正态参数U=0.5*100=50,D=0.5*0.5*100=25y=1-pnorm（45,50,25）y在比较两个有联系的样本的差异时，如果样本在比较两个有联系的样本的差异时，如果样本数据的计量水平至少为顺序水平时，可以用符数据的计量水平至少为顺序水平时，可以用符号检验。

号检验。

设两个有联系的样本设两个有联系的样本（X1,X2,Xn）与与（Y1,Y2,Yn），它们的计量水平为顺序水平，它们的计量水平为顺序水平，因而我们能比较出每一对因而我们能比较出每一对Xi与与Yi的大小，如果的大小，如果XiYi则记作则记作“+”；如果；如果Xix1）.EXECUTE.X1X244113.23.2113.83.8111.81.81133115.35.3115.75.71133112.72.7112.82.8111.81.8112.62.6113.13.12233223.53.52211221.81.8223.93.9222.22.2222.12.1221.41.4222.62.6221.41.4222.72.722用用T检验分析；检验分析；w=read.table（D:

/r1.txt,header=T）wx-w1:

12,1y20（n25），可以对二，可以对二项分布用正态分布近似计算项分布用正态分布近似计算在计算在计算K值时，当值时，当Kn/2时时取取K-0.5。

期望期望np=0.5n;方差方差=np（1-p）=0.5*0.5*nEXCEL函数函数NORMSDIST（Z）得到概率得到概率二项分布二项分布SAS程序程序二项分布二项分布R程序程序解：

男女比例应该差不多解：

男女比例应该差不多H0：

P=0.5,H10.5n=40,p=0.5,u=np=20,d=0.5*0.5*4010正态近似计算。

正态近似计算。

datatj0;x=probbnml（0.5,40,12）;putx=x;run;binom.test（12,40,.5）例：

有一种提高学生某种素质的训练，有人说例：

有一种提高学生某种素质的训练，有人说它是无效的，有人说它是有效的，那么真实情它是无效的，有人说它是有效的，那么真实情况究竟应该是怎样的呢？

随机地选取况究竟应该是怎样的呢？

随机地选取15名学生名学生作为试验样本，在训练开始前做了一次测验，作为试验样本，在训练开始前做了一次测验，每个学生的素质按每个学生的素质按优、良、中、及、差优、良、中、及、差打分，打分，经过三个月训练后，再做一次测试对每个学生经过三个月训练后，再做一次测试对每个学生打分。

数据见下表所示。

我们将素质提高用正打分。

数据见下表所示。

我们将素质提高用正号表示，反之用负号表示，没有变化用号表示，反之用负号表示，没有变化用0表示。

表示。

显著性水平取显著性水平取0.05。

学生学生编号号训练之之前前训练之之后后差异差异符号符号1中中优2及及良良3良良中中4差差中中5良良良良06中中优7差差及及8良良优9中中差差10差差中中11中中优12及及良良13中中及及14中中优15差差中中假设检验为：

假设检验为：

即即H0:

p0.5训练之后学生素质有提高。

训练之后学生素质有提高。

从表从表1中中15名学生训练前后的差异分析可得出：

名学生训练前后的差异分析可得出：

有有14名学生有差异，其中名学生有差异，其中S+=11，S-=3。

1名学生无差异（学生编号为名学生无差异（学生编号为5），应该从分析中），应该从分析中去掉，所以去掉，所以n=151=14。

由于试验的结果只有两种可能，正号或负号，对由于试验的结果只有两种可能，正号或负号，对每一个学生试验出现正号的假定概率为每一个学生试验出现正号的假定概率为p=0.5，负，负号为号为1-p=0.5，这样整个试验的概率是相同的，并，这样整个试验的概率是相同的，并且每一个试验是相互独立的。

且每一个试验是相互独立的。

因此在因此在n=14次独立的试验中，正号出现的次数服次独立的试验中，正号出现的次数服从二项分布从二项分布B（14,0.5），正号出正号出现的次数的次数正号出正号出现的概率的概率累累计概率概率00.00010.000110.00090.000920.00560.006530.02220.028740.06110.089850.12220.212060.18330.395370.20950.604780.18330.788090.12220.9102100.06110.9713110.02220.9935120.00560.9991130.00090.9999140.00011.0000从表中的累计概率列中我们看到，正从表中的累计概率列中我们看到，正号出现的次数大于号出现的次数大于10的概率为的概率为10.9713=0.0287，或者换一种方法计算，或者换一种方法计算为为0.0001+0.0009+0.0056+0.0222=0.0287，二者的微小差异是因为小数点后舍，二者的微小差异是因为小数点后舍入问题造成的。

入问题造成的。

而试验的结果：

正号出现的次数为而试验的结果：

正号出现的次数为11，大于，大于10，出现的概率不会超过，出现的概率不会超过0.0287，我们开始设定的显著性水平，我们开始设定的显著性水平为为0.05，由于，由于0.028740000=0.5H1:

Pme40000