非参数统计2.ppt
- 文档编号:2519157
- 上传时间:2022-10-31
- 格式:PPT
- 页数:53
- 大小:1.57MB
非参数统计2.ppt
《非参数统计2.ppt》由会员分享,可在线阅读,更多相关《非参数统计2.ppt(53页珍藏版)》请在冰豆网上搜索。
第二章第二章单样本检验单样本检验假设某地的10栋房屋出售价格(由低到高排列)为56,69,85,87,90,94,96,113,118,179(单位:
万元),问该地区的平均房屋价格是否和人们相信的84万元的水平大体一致。
我们用M表示价格分布的中心(这里考虑中位数),如假设该分布对称,则M也是均值。
我们要检验H0:
M=84,H1:
M84按照传统的参数方法,假设房屋价格服从正态分布N(84,2),则检验统计量为,其值为1.384,结论呢?
第一节符号检验和置信区间假设总体,Me是总体的中位数,对于假设检验问题:
是待检验的中位数取值定义,,则,在零假设情况下,在显著性水平为的拒绝域为其中k是满足上式最大的k值。
结果讨论结果讨论结果讨论结果讨论大样本结论大样本结论当n较大时双边:
,p-值左侧:
,p-值右侧:
,p-值检验步骤检验步骤Ex.某国12位总统的寿命(岁)分别为46,57,58,60,60,63,64,67,72,78,88,90.问该国总统寿命的中位数是否不小于71.5岁?
根据题目,要检验的是H0:
M0.571.5,H1:
M0.571.5显然,当S_太多时拒绝原假设。
经计算,K=min(S_,S+)=4P(K4)=?
0.1938假设总体,Mp是总体的p分位数,对于假设检验问题:
是待检验的分位数取值定义,,则,在零假设情况下,在显著性水平为的拒绝域为其中k是满足上式最大的k值。
广义符号检验广义符号检验例.5年前成年人在每日24小时中的睡眠量中位数是7.5小时,每日睡眠量为6小时或少于6小时的占调查总数的5%,9小时和9小时以上的也占5%。
现对8个普通成年人的抽样调查结果为:
7.2,8.3,5.6,7.4,7.8,5.2,9.1,5.8.问现在成年人的睡眠量是否少于5年前根据5年前的数据,对0.05,0.5和0.95分位数,至少检验一个假定。
H0:
M0.5=7.5,H1:
M0.57.5H0:
M0.05=6,H1:
M0.056H0:
M0.95=9,H1:
M0.95P_在第一个检验中,仅判定对二者喜好程度有无差异。
由调查结果,n=14,s+=12,s-=2.P(S_2|n=14,p=0.5)=0.0065,双侧检验概率为0.013.在0.05的水平下,拒绝前面的两个假设.中位数的置信区间中位数的置信区间由于得到的区域是以中位数对称的,采用Neyman原则选择最优置信区间,首先找出置信度大于的所有区间,然后再从中选择区间长度最小的一个。
对于大样本,可以用近似正态分布求置信区间。
根据顺序统计量构造置信区间:
构造置信度为90%的置信区间:
9.8,10.0第二节Wilcoxon符号秩检验基本概念及性质对称分布的中心一定是中位数,在非对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。
例:
下面的数据中,O是对称中心吗?
00检验步骤检验步骤Ex.某公司为减少加工费用,决定若铸件重量的中位数超过25公斤,就转包加工;若不超过25公斤则不转包。
现从这批铸件中随机抽取8件,每件的重量分别为:
24.3,25.8,25.4,24.8,25.2,25.1,25.0,25.5。
使用这些数据,能否作出这批铸件是否转包的决定。
第四节Cox-Stuart趋势检验检验原理检验原理:
数据序列:
,双边假设检验问题:
令:
取数对,为正的数目,为负的数目,当正号或者负号太多的时候,认为数据存在趋势。
在零假设情况下Di服从二项分布。
从而转化为符号检验问题X1,X2,Xn例某地区32年来的降雨量如下表问
(1):
该地区前10年来降雨量是否有变化?
(2):
该地区32年来降雨量是否有变化?
年份19711972197319741975197619771978降雨量206223235264229217188204年份19791980198119821983198419851986降雨量182230223227242238207208年份19871988198919901991199219931994降雨量216233233274234227221214年份19951996199719981999200020012002降雨量226228235237243240231210Ex美国国家宇航局(NASA)自1966至1984年的科研和发展经费按时间顺序为问:
经费有无上升趋势?
5.95.44.74.33.83.43.43.33.33.33.73.94.04.24.95.26.06.77.0首先用全部首先用全部1919个数据检验个数据检验:
n=19,c=10,S_=5,S+=4再用再用19701970年至年至19841984年的年的1515个数据检验个数据检验:
n=15,c=8,S_=7,S+=0第五节游程检验游程的概念:
随机游程问题:
一个二元0/1序列当中,一段全由0或者全由1构成的串成为一个游程,游程中数据的个数称为游程长度,序列中游程的个数记为R,反映0和1轮换交替的频繁程度。
在序列长度N固定的时候,如果游程过少过者过多,都说明序列的随机性不好。
当游程过多或者过少时,就会怀疑序列的随机性。
序列110000111011000011110共有8个游程检验原理和计算方法设是由0或者1组成的序列,假设检验问题:
R为游程个数,假设有个0,个1,这时R取任何一个值的概率都是,R的条件分布建立了抽样分布之后,在零假设成立时,可以计算或者的值,进行检验。
X1,X2,Xn随机游程问题:
序列110000111011000011110共有8个游程R=8,m=10,n=11查表可知,=0.05下临界值为c1=6,c2=17因为6R=817,故认为这些数据符合随机性假设游程检验的应用1.用于检验两个总体的分布的位置参数是否相同分析:
如果原假设成立,则两个行业的负债水平的分布是相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。
2.检验单样本的随机性对某型号20根电缆依次进行耐压试验,测得数据如下:
这些数据能否认为受到非随机因素干扰,例如测量仪器工作条件的改变等的影响。
分析:
这些观察值的中位数是204.6,如果原假设成立,则数据应在中位数附近随机出现。
若把小于中位数的观察值换为0,大于或等于中位数的换为1,即可应用游程检验其随机性Ex.一洗发剂厂家的质检科要求每瓶洗发剂的平均重量为12盎司,现从一台机器中随机抽取20瓶,测其重量如下:
试验证这条机器多灌少灌是不是随机的.补充:
异常值的发现与剔除在处理统计问题时,往往首先假设样本来自某个总体,然后在此基础上进行统计推断。
可能发生以下这样的情况:
在得到了一组观察值后,发现其中的一个或几个观察值和其他观察值之间在数量上有较大的差异,不像是从同一个总体得到的。
例如:
天文学家肖维勒于1863年处理的关于金星垂直半径的15个观察数据的残差数据:
-1.40,-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01,其中-1.40和1.01与其他观察值之间的差异较大。
我们不禁要问这15个观察值是不是在同一条件下得到的?
-1.40和1.01是不是金星垂直半径的观察数据?
样本中的个别观察值,其数值明显地偏离子样中其余的观察值,这些个别观察值可能来自不同的总体,我们称之为异常值(或离群值)。
用统计方法去发现异常值,实际上是某种显著性检验。
在给定显著水平下,给出一个判断准则,使得当实际数据都是来自同一总体(无异常值)的时候,判断有异常值的概率(即犯错误的概率)不超过我们主要介绍小样本时正态总体下单个异常值的发现准则。
设X1,X2,Xn是来自正态总体N(,2)的样本,记X
(1)X(n)为其顺序统计量。
检验X
(1)或X(n)是否为异常值主要采用“半极差型检验法”。
若X(n)是异常值,则以作为刻度,应远离,即(X(n)-)/的值过大。
因,未知,采用其矩估计代替,故检验统计量为:
(X(n)-)/S(或(-X
(1)/S),当其值大于某临界值时,拒绝原假设。
就前例,天文学家肖维勒于1863年处理的关于金星垂直半径的15个观察数据的残差数据:
-1.40,-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计