卡方检验二.docx
- 文档编号:24144713
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:11
- 大小:127.45KB
卡方检验二.docx
《卡方检验二.docx》由会员分享,可在线阅读,更多相关《卡方检验二.docx(11页珍藏版)》请在冰豆网上搜索。
卡方检验二
6.4R×C表资料的χ2检验
1.问题的提出
前面我们已经学过用χ2检验检验实际频数与理论频数的拟合优度,具体地说,用于两个率或两个二分类构成比差异的比较。
在医学研究中,我们常常遇见多个率或二个以上多分类构成比间差异的比较。
可不可以用同样的思路和方法去解决这类问题?
例如表6.7的资料:
表6.7不同疾病病人的血型分布
疾病分类
血型
合计
A
B
O
胃溃疡组
679
134
983
1796
胃癌组
416
84
383
883
对照组
2625
570
2892
6087
合计
3720
788
4258
8766
合计构成比(%)
42.4
9.0
48.6
100.0
这是3个三类构成比的比较。
表6.15某病170例不同年龄患者的疗效统计
患者年龄(岁)
无效
有效
合计
有效率(%)
<18
5
52
57
8.8
18-
30
48
78
38.5
50+
15
20
35
42.9
合计
50
120
170
29.4
这是三个率的比较。
2.R×C表资料的χ2检验
关于前面问题的答案是:
可以。
这类资料都可以整理成一个行(R)×列(C)表,可以用R×C表资料的χ2检验比较多个率或比的差异。
以表6-7为例说明χ2检验的步骤。
解
(1)建立假设
H0:
三种疾病的血型分布比例一致
H1:
三种疾病的血型分布比例不一致
分布比例一致即三个构成比相等,等于什么呢?
在没有任何其它信息时,最可靠的估计值是合计的构成比
每个格子的理论频数=各疾病的总人数乘以相应的构成比
如胃溃疡组A型血的理论频数
T11=1796×0.424=761.5
其余格子相同。
余下的计算就与前面完全相同了,
后式是用于R×C表资料的专用公式。
(2)计算χ2统计量
=
(2)确定概率与作出决策
自由度=(3-1)(3-1)=4
查附表得对应于=0.05的界值
=9.49
故P<0.05,拒绝H0,
即认为不同疾病具有不同的血型分布。
3.R×C表资料的χ2分割
可能有人仍不满足,想知道到底是哪两组间的构成比不等,或者到底是哪种血型的比例有差异。
有人可能这样做,将R×C表分割成若干个四格表,再分别做χ2检验,有统计学意义的就是两者间有差异。
对不对?
不对,为什么?
理由有三:
1.各四格表不独立;2.样本量人为减少;3.多次比较。
正确的分割方法应该是怎样?
χ2分割的思路:
找出差异最小的两组作比较,如差异有统计学意义,不需分割了。
如无统计学意义,则合并。
重复以上步骤,直至余下的组间差异都有统计学意义为止。
表6.8每种疾病病人的血型分布比例
A型
B型
O型
合计
疾病
例数
%
例数
%
例数
%
例数
%
胃溃疡组
679
37.80
134
7.46
983
54.73
1796
100.0
胃癌组
416
47.11
84
9.51
383
43.37
883
100.0
对照组
2625
43.12
570
9.36
2892
47.51
6087
100.0
胃癌与对照组的血型分布较接近。
将这两组分割出来见表6.9。
表6.9表6.8的分割表之一胃癌组与对照组的血型分布
疾病分类
血型
合计
A
B
O
胃癌组
416
84
383
883
对照组
2625
570
2892
6087
合计
3041
654
3275
6970
χ2=5.636<
=5.99,P>0.05,不拒绝H0,这两组合并。
表6.10表6.8的分割表之二胃溃疡组与非胃溃疡组的血型分布
疾病分类
血型
合计
A
B
O
胃溃疡组
679
134
983
1796
非胃溃疡组
2625
570
2892
6087
合计
3041
654
3275
6970
χ2=34.919>
=5.99,P<0.05,拒绝H0。
表6.11疾病与血型资料的χ2检验结果
表号
χ2P
χ2L
ν
表6.9(分割表一)
5.636
5.639
2
表6.10(分割表二)
34.919
35.001
2
合计
40.555
40.640
4
表6.8(总表)
40.543
40.640
4.R×C表资料的关联度测定
对于交叉分类资料,可以分析两有序分类特征变量间的关联度,用Pearson列联系数(rp)。
表6.15某病170例不同年龄患者的疗效统计
患者年龄(岁)
无效
有效
合计
有效率(%)
<18
5
52
57
8.8
18-
30
48
78
38.5
50+
15
20
35
42.9
合计
50
120
170
29.4
,
5.注意事项
同前面一样,χ2分布是建立在大样本的假定上的,即每个格子的理论数大于5。
如果这假定不成立,即理论数小于5的格子占1/5以上或有理论数小于1,则不能做χ2检验。
解决的办法有增大样本或合并独立组别。
合并时要注意合并的合理性。
6.5频数分布拟合优度的χ2检验
利用χ2检验的性质,我们可以用于检验任意实际分布与某个理论分布的符合程度。
如:
新生儿性别的构成比,鼻咽癌在家族的分布,仪器测量误差的分布。
例6.6:
表6.16细菌性痢疾暴发的家庭聚集性分析表
每户发病人数
家庭数
二项分布概率
理论家庭数
χ2分量
0
167
0.4396
126.59
12.90
1
51
0.4011
115.52
36.04
2
50
0.1373
39.53
2.77
3
17(20)
0.0209
6.01(6.36)
29.29
4
3
0.0012
0.35
合计
288
1.0000
288.00
81.00
1)建立检验假设
H0:
此次流行不存在家庭成员间的传染
(服从π=0.18576的二项分布)
H1:
家庭成员间存在传染性(不服从二项分布)
2)估计二项分布的总体参数
=发病总人数/调查总人数
发病总人数=0×167+1×51+2×50+3×17+4×3=214人
调查总人数为288×4=1152人
得
=214/1152=0.18576
相应的不发病率为1-
=0.81424。
3)计算发病人数为x的概率Px=P(x)及理论家庭数ex=nPx
此处n=288为调查家庭总数。
例如
P(x=0)=
(0.18576)0(0.81424)4=0.43955
相应的理论家庭数为:
e0=288×0.43955=126.59
相应的χ2分量为:
=(167-126.59)2/126.59=12.90
所有计算结果均列于表6.16第3,4及5列中。
4)计算χ2值
求各组χ2分量之和,得χ2=81.00。
5)确定概率p
本例k=4组
由于利用样本资料估计了发病率
自由度=4-1-1=2
查表,得自由度2时
=5.99,故p<0.05。
6)作出决策
拒绝H0,可认为:
本次调查家内发病人数的分布不符合二项分布,
此次流行可能存在家庭成员间的传播。
6.6四格表精确概率检验法
前面讲过,χ2检验基于大样本假定。
如果总例数小于40或任一格子理论数小于1,
假定不成立,则不能用χ2检验。
表6.17栓塞性脉管炎两种治疗方法的结果
组别
治愈人数
未愈人数
合计
新药组
6(a)
1(b)
7
对照组
1(c)
4(d)
5
合计
7
5
12
这资料总例数少于40,是小样本资料。
为表达方便,将四个格子分别命名为a、b、c、d。
现在我们知道总的12个病人中有7人治愈,如果这治
愈率与治疗方法无关,我们可以建立起以下条件概率:
这里
一般地,
这个条件概率分布称为超几何分布。
具体的计算步骤:
H0:
π1=π2,H1:
π1≠π2。
计算概率
2
5
3
4
4
3
5
0
4
1
3
2
P=0.02651515P=0.22095959P=0.44191919
5
2
6
1
7
0
2
3
1
4
0
5
P=0.28515152P=0.04419192P=0.00126263
如果是单侧检验,只需考虑比实际观察结果更极端的情况,a=6时,实际频数与理论频数之差的绝对值为
|6-4.083|=1.917
与4.083距离超过1.917的除了a=6外,还有a=7,即表5和表6。
P=0.04419192+0.00126263=0.0454545<0.05,
拒绝零假设,可以认为新药组的治愈率高于对照组。
如果是双侧检验,不单需考虑一侧更极端的情况,还需考虑另一侧更极端的情况,还包括a=2。
P=0.02651515+0.04419192+0.00126263=0.071977>0.05
不拒绝零假设H0,即两组治愈率之差异无统计学意义。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检验
![提示](https://static.bdocx.com/images/bang_tan.gif)