第八章秩转换的非参数检验10硕.docx
- 文档编号:8510784
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:48
- 大小:43.32KB
第八章秩转换的非参数检验10硕.docx
《第八章秩转换的非参数检验10硕.docx》由会员分享,可在线阅读,更多相关《第八章秩转换的非参数检验10硕.docx(48页珍藏版)》请在冰豆网上搜索。
第八章秩转换的非参数检验10硕
第八章秩转换的非参数
检验
公共卫生学院流行病与卫生统计学系吴静
本章内容
�配对设计和单样本资料的符号秩检验
�完全随机设计两组独立样本的秩和检验
�完全随机设计多组独立样本的秩和检验
�随机区组设计资料的秩和检验
参数检验(parametrictest)
�假定随机样本来自已知分布(如正态分布)的总体
�对总体分布的参数(如总体均数)进行估计或检验
检验、检验等
tF
非参数检验(nonparametrictest)
�对总体分布类型不作严格规定,不依赖于总体分布类型
�非参数检验又称任意分布检验(distribution-freetest)
�它直接对总体分布的位置作假设检验
参数检验
(parametrictest)
非参数检验
(nonparametrictest)
已知总体分布类型,对
未知参数进行统计推断
对总体的分布类型
不作严格要求
依赖于特定分布类型,比较的是参数
不受分布类型的影响,比
较的是总体分布位置
优点:
方法简便、易学易用,易于推广使用、
适用范围广;可用于参数检验难以处理的资料
(如等级资料,或含数值“>50mg”等)
缺点:
方法比较粗糙,对于符合参数检验条件者,采用
非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同
�总体分布类型不明的资料
�方差不齐的资料
�偏态分布资料
�开口资料(一端或两端无确定数值,如<0.002、
>65等)或个别数据偏大的资料(必选)
�等级资料(单向有序列联表)
�对于计量资料,若不满足正态和方差齐性条件,这时小样
检验或检验是不妥的,而选用非参数检验是恰
F
t
当的
�对于分布不知是否正态的小样本资料,为保险起见,宜选
用非参数检验
�对于一端或两端是不确定数值(如<0.5、>0.5等)的资料,不管是否正态分布,只能选用非参数检验
检验,只能推断构
�对于等级资料,若选行×列表资料的
χ²
成比差别,而选用非参数检验,可推断等级强度差别
�秩次(rank),秩统计量
是指全部观察值按某种顺序排列的位序;一般即是将数值变量值从小到大,或等级变量值从弱到强所排列的序号
�秩和(ranksum)
同组秩次之和
�例111只大鼠存活天数:
存活天数4,10,7,50,3,15,2,9,13,>60,>60
秩次3649281571011
秩次相同(tie)取平均秩次!
!
10.510.5
�例27名肺炎病人的治疗结果:
危险程度治愈治愈死亡无效治愈有效治愈
秩次
1
2
7
6
3
5
4
平均秩次
2.5
2.5
7
6
2.5
5
2.5
�秩次:
在一定程度上反映了等级的高低
�秩和:
在一定程度上反映了等级的分布位置
�对等级的分析,转化为对秩次的分析
�秩和检验就是通过秩次的排列求出秩和,进行假设
检验
�由于对总体的分布没有特定的假设,它不是用样本实际测定值直接构造统计量进行检验,而是通过将样本实际数据排队编秩后,对秩次进行比较
�其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感
�如要比较两个班级同学的身高,可以先让两个班的同学站
在一起,按高矮排队后连续报数,然后将两个班的同学分开,每个班分别将自己班上同学所报数的数字相加,然后
再除以班级的人数。
�可以想象,如果两个班同学的身高相近,则排队时他们会比较均匀地、交错地排在队伍中,其结果是两个班所报数字(即身高的秩次)的平均数应该是接近的。
�如果两个班的平均数相差很大,则有理由相信其中一个班同学的身高比另一个班高。
�其中构造的统计量为秩和统计量。
第一节配对设计和单样本
资料的符号秩检验
�配对设计资料的符号秩检验
�一组样本资料的符号秩检验
一、配对设计资料的比较
�Wilcoxon符号秩检验
(Wilcoxonsigned-ranktest)
�又称Wilcoxon配对法,由FrankWilcoxon提出
�用于推断配对资料的差值是否来自中位数为零的总体
例8-1对12份血清分别用原方法(检测时间20分钟)和新方法(检测时
间10分钟)测谷-丙转氨酶,结果见表8-1的
(2)、(3)栏。
问两法所得结果有无差别?
编号
原法
新法
(1)
(2)
(3)
1
60
80
2
142
152
3
195
243
4
80
82
5
242
240
6
220
220
7
190
205
8
25
38
9
212
243
10
38
44
11
236
200
12
95
100
表8-112份血清用原法和新法测血清谷-丙转氨酶(nmol•S-1/L)结果的比较差值按绝对值编秩
d
(2
(4)=(3)-d)
正秩(5)负秩(6)
208
105
4811
21.5
-2
01.5
157
136
319
64
-3610
53
合计54.511.5
,第
mi
x
(=1,2,…,)对具有观察值(,
imi
d
xy表示的中位数
�假定两种处理效应相同,则差值的总体分布
=
是对称的,总体中位数为0(Md=0)
1.建立检验假设,确定检验水准
0:
差值的总体中位数Md=0
H=
H1:
差值的总体中位数Md≠0;α=0.05
2.计算检验统计量
x
)的差值=
di
i-yi
y
=-
x
(2)编秩
①省略所有差值为0的对子数;
②按差值的绝对值从小到大编秩,绝对值相等者(tie)
取平均秩次;
③将差值的正负标在秩次之前。
(3)求秩和并确定统计量T
和表示;
T+T-
值,即min
T=
Tm
T);单侧检验时,任取正差值的秩和或负差值的秩
。
本例取
T
11.5。
T=
(即为差值不等于0的对子
nn
数),则
+=n(n
+1)
T+T−2
3.确定
值,作出推断结论
P
(1)小样本(5≤n≤50)时,查表法(附表9)
n>
(2)大样本(n>50)时,正态近似法
NN+
=(N+1)/2
�如成立,则正负各半,与
H0T+T-
+1)/4。
均接近
N
N
(1)/4
N
�如果相差太大,超出了事先规定的界值,则不
H0
成立。
�界值的判断标准:
值在上、下界值范围内时,>0.05
P
–若
T
–若值恰好等于界值时,
T
P>
=
P=0.05
值在上、下界值范围外时,<0.05
P
–若
T
�本例=11,T
P<
11.5,查附表9,双侧0.05<
<0.10,
n
n==
α=
P
H,尚不能认为两法测谷-丙转氨
酶结果有差别。
>
成立时,统计量近似服从标准正态分布:
Hu
=T−n(n+1)/4
为对子数)
u
n(n
+1)(2n
24
+1)(n
不很大时,统计量需要作如下的连续性校正:
u
−n(n+1)/4
T
=
u
−0.5
n(n+1)(2n+1)
24
>
�若多次出现相持现象,统计量需要作如下的校正:
u
u=T
−n(n+1)/4
(3)n
为第个
tj
=
n(n+1)(2n+1)
24
−∑tj−tj
48
相同秩次的个数。
�本例=
T
11.5,n
11;相同秩次中有两个1.5,则t1=2:
T
11.5−11(11+1)/4
u=
−0.5
=
=1.91
−
11(11+1)(2∗11+1)
24
∑(23−2
48
>
结论与查表法相同。
α=0.05
,拒绝,
H1
符号秩检验若用于配对的等级资料,则先把等
;最后按n
级从弱到强转换成秩(1,2,3,…);然后求各对秩的差值,省略所有差值为0的对子数,令余下的有个差值编正秩和负秩,求正
n
秩和或负秩和。
但对于等级资料,相同秩多,小样本的检验结果会存在偏性,最好用大样本。
�Wilcoxon符号秩检验:
单个样本中位数和总
体中位数比较
�推断样本所来自的总体中位数和某个已知的
M
总体中位数是否有差别
M0
�应用样本各变量值和
的差值,即推断差值的
M0
和0是否有差别
总体中位数Md
M
例8-2已知某地正常人尿氟含量的中位数为45.30
mol/L。
今在该地某厂随
μ
机抽取12名工人,测得尿氟含量见表8-2第
(1)栏。
问该厂工人的尿氟含
量是否高于当地正常人的尿氟含量?
表8-2某厂12名工人的尿氟含量(μ
ol/L)与45.30
mol/L比较
mμ
尿氟含量
(1)–45.30按绝对值编秩
(1)
(2)正秩(3)负秩(4)
44.21
-1.09
1.5
45.30
0.00
46.39
1.09
1.5
49.47
4.17
3
51.05
5.75
4
53.16
7.86
5
53.26
7.96
6
57.37
12.07
7
63.16
17.86
8
67.37
22.07
9
71.05
25.75
10
87.37
42.07
11
合计
64.5
1.5
1.检验假设和检验水准
:
该厂工人尿氟含量的总体中位数
H0
M
:
该厂工人尿氟含量的总体中位数
H1
α=0.05
T
2.编秩、求统计量
T
M
=45.30
μ
>45.30
μ
mol/L
mol/L
求出所有观察值与总体中位数45.30之差,按绝对
值由小到大编秩,绝对值相同取平均秩次,然后分别计算正负秩次之和,即表8-2第(3)、(4)栏。
据表8-2第(3)、(4)栏,T+
64.5,T-=1.5,取
==
T=1.5。
3.查表、做结论
有效差值个数=11。
据n=11和T
1.5查附表9,
n
n===
得单侧
P
0.05,按α=0.05水准拒绝H0,接受H1,
P 可认为该厂工人的尿氟含量高于当地正常人的尿氟含量。 第二节完全随机设计两组 独立样本的秩和检验 �两组连续变量资料的秩和检验 �两组有序变量资料的秩和检验 Wilcoxon秩和检验 �Wilcoxon秩和检验(Wilcoxonranksumtest),用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别。 �秩和检验的目的是推断两个总体分布的位置是否有差别,如要推断两个不同人群的某项指标值的大小是否有差别或哪个人群的大,可用其指标值分布的位置差别反映,而不关心其指标值分布的形状有无差别。 �两个总体分布位置不同,实际情况一般是两个总体分布形状相同或类似,这时可简化为两个总体中位数不等。 一、两组连续变量资料的秩和检验 用t �如果资料方差相等,且服从正态分布,就可以检验比较两样本均数 t �如果此假定不成立或不能确定是否成立,就应采用秩和检验来推断两样本分别代表的总体分布是否不同 例8-3 表8–3肺癌病人和矽肺0期工人的RD值(cm)比较 假定: 两组样本的总体分布形状相同基本思想 如果两 RD值 秩 RD值 秩 2.78 1 3.23 2.5 3.23 2.5 3.50 4 4.20 7 4.04 5 4.87 14 4.15 6 5.12 17 4.28 8 6.21 18 4.34 9 7.18 19 4.47 10 8.05 20 4.64 11 8.56 21 4.75 12 9.60 22 4.82 13 4.95 15 5.10 16 n1=10 T1=141.5 n2=12 T2=111.5 肺癌病人矽肺0期工人 总体分布相同 两样本来自同一总体 任一组秩和不应太大或太小 与平均秩和 T应相差不大 n0(1+ N)/2 ⎧较小例数组的秩和,n≠n =⎨ T⎩min(R1,R2),n1 12 =n2 N=n1 +n2 n0= min( 1,n2) n �如果成立,即两组分布位置相同, H0 则A组的实际秩和应接近理论秩和n1(N+1)/2; B组的实际秩和应接近理论秩和n2(N+1)/2;或相差不大。 �如果相差较大,超出了预定的界值,则可认为不 H0 成立。 1.检验假设和检验水准 : 两个总体分布相同 H0 : 两个总体分布不同(双侧) H1 1 或H1: 样本A高于样本B(单侧) α=0.05 2.编秩、求统计量T 将两样本数据混合从小到大编秩,遇数据相等者取平均秩 T 次;分别求出1、 T ,若两组例数相等,则任取一组的秩 T12 和为统计量;若两组例数不等,则以样本例数小者对应的 = = 秩和为统计量。 本例n1 T1=141.5。 3.确定值,作出推断结论 P (1)查表法(n1≤10,n2−n1≤10)查附表10 位于检验界值区间内,P>α ,不拒绝;否 H T 则,P≤α 0 ,拒绝。 H H0 T –本例T=141.5,取α=0.05,查附表10得单侧检验界值 位于区间外,< P 0.05,因此在α =0.05的水平上,拒绝H ,接受 H ,可认为肺癌病人的 =0.0501 RD值高于矽肺0期工人的RD值。 3.确定值,作出推断结论 P (2)正态近似法(n1>10,n2-n1>10) =|T −n1(N +1)/2| −0.5 u (1) (3−) n1n2N+ 3 (1− ∑tjtj) 12N−N 为第 tjj 次相持时相同秩次的个数 N=n1+n2 二、两组有序变量资料的秩和检验 �二分类变量---检验 χ² 检验 χ² � 无序多分类变量 --- � 有序多分类变量 --- Wilcoxon秩和检验 常错误采用检验 χ² 名义数据的两样本比较,采用率或构成 检验 比的 χ² 例8-439名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%) 含量见表8-4。 问吸烟工人的HbCO(%)含量是否高于不吸烟工人的 HbCO(%)含量? 表8–4吸烟工人和不吸烟工人的HbCO(%)含量比较 含量 (1) 吸烟工人 (2) 不吸烟工人 (3) 合计 (4) 秩范围 (5) 平均秩 (6) 秩和 吸烟工人不吸烟工人 (7)= (2)(6)(8)=(3)(6) 很低 1 2 3 1~3 2 2 4 低 8 23 31 4~34 19 152 437 中 16 11 27 35~61 48 768 528 偏高 10 4 14 62~75 68.5 685 274 高 4 0 4 76~79 77.5 310 0 合计39(n1)40(n2)79——1917(T1)1243(T2) nnTT 检验步骤 1.检验假设和检验水准 H : 吸烟工人和不吸烟工人的HbCO含量总体分布位置相同 0 H : 吸烟工人的HbCO含量高于不吸烟工人的HbCO含量 1 α=0.05 2.编秩、求值,计算统计量 T (1)先确定各等级的合计人数、秩次范围和平均秩次,见表8-4的(4)~(6)栏,再计算两样本各等级的秩和,见 (7)、(8)栏; = (2)本例T 1917; (3)计算统计量值 Z ,, ∑(3− )=(33 −3)+(313 −31)+(273 −27)+(143 −14)+(43 −4) tjtj =52230 =1917−39⋅(79+1)/2 =3.7023 Z39⋅40⋅(79+1)(1− 52230) 12793 −79 查附表1(标准正态分布表)得单侧,按 水准拒绝,接受,可认为吸烟工人的HbCO (%)含量高于不吸烟工人的HbCO(%)含量。 Mann-Whitney检验 U Wilcoxon秩和检验和Mann-WhitneyU检验两种方法是独立提出的,检验结果完全等价的;前者用统计量,而后者用 T 统计量,统计量有明确含义,为了避免与统计量混淆, UUT 统计量的定义。 一旦计算出了、,统计量按 R1R2U U 下式计算: U =min( n1 ⋅n2 +n1(n1 2 +1) −R1,n1 ⋅n2 +n2(n2 2 +1) −R2) =min(133⋅129+133⋅134 U2 −17045, 133⋅129+129⋅130 2 −17408) =8134 第三节完全随机设计多组 独立样本的秩和检验 �多组计量资料的秩和检验 �多组等级资料的秩和检验 �多重比较 一、多组连续变量资料的秩和检验 �如果不满足方差分析的条件,可采用Kruskal- W H -检验 W �此法的基本思想与Wilcoxon-Mann-Whitney 法相近: 如果各组处理效应相同,混合编秩后,各组的秩和应近似相等 例8-5比较小白鼠接种三种不同菌型伤寒杆菌9D、 11C和DSC1后存活日数,结果见表8-5。 问小白鼠接种三种不同菌型伤寒杆菌的存活日数有无差别? 表8-5小白鼠接种三种不同菌型伤寒杆菌的存活日数比较 9D11CDSC1 存活日数秩存活日数秩存活日数秩 2 2 5 10.5 3 4.5 2 2 5 10.5 5 10.5 2 2 6 15.5 6 15.5 3 4 4 4 4.5 7 7 7 6 6 7 8 15.5 15.5 21 24 6 6 7 7 15.5 15.5 21 21 5 10.5 10 26.5 9 25 7 21 12 30 10 26.5 7 21 11 28.5 11 28.5 — 212 — 11 — 19.27 Ri84—169 ni10—9 — i8.40 18.78 1.建立检验假设,确定检验水准 : 接种三种不同菌型伤寒杆菌的存活日数总体 H0 分布位置相同 : 接种三种不同菌型伤寒杆菌的存活日数总体 H1 分布位置不全相同 α=0.05 R 其平均秩次 ,,相同的数值取 R3 3.计算检验统计量H 2 =12 HN(N+1) ∑Ri ni −3(N +1) 为各组对应的例数,为总例数 RinN HHc=HC C按下式 �若相持较多,需对 计算: 作校正: =/ HcH 校正系数 ,C =1−∑(3− )/(3−) CtjtjNN 3.计算检验统计量H 12842 H=( 1692 ++ 2122 )−3(30+1) =9.77 30(30+1)10911 (33−3)+(23−2)+(33−3)+(43−4)+(63−6)+(53−5)+(23−2)+(23−2) C=1−303−30=0.98 HC= 9.77/0.98= 9.97 检验步骤 4.确定值,作出推断结论 P ≤ 值查附表11 (1)查表: 组数k=3,各组例数ni≤5,可根据H 近似服从自由 不太小时,理论上 H χ k -1)的分布,故可查 ² 界值表(附表8) χ² ² 本例,k=3,n1=10,n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 转换 参数 检验 10