spss学习系列24卡方检验.docx
- 文档编号:7621982
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:12
- 大小:31.71KB
spss学习系列24卡方检验.docx
《spss学习系列24卡方检验.docx》由会员分享,可在线阅读,更多相关《spss学习系列24卡方检验.docx(12页珍藏版)》请在冰豆网上搜索。
spss学习系列学习系列24卡方检验卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:
实际观察频数f0与理论频数fe(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从分布,即卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,值越小。
卡方检验要求:
(1)分类相互排斥,互不包容;
(2)观察值相互独立;(3)样本容量不宜太小,理论频数5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:
卡方检验的原假设H0:
=0;备择假设H1:
0;卡方检验的用途:
(1)检验某连续变量的数据是否服从某种分布(拟合优度检验);
(2)检验某分类变量各类的出现概率是否等于指定概率;(3)检验两个分类变量是否相互独立(关联性检验);(4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:
检验“性别”的男女比例是否相同(各占1/2)。
1.【分析】【非参数检验】【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:
变量“性别”的度量标准必须改为“名义”类型。
3.【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4.点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=,勾选“所有类别概率相等”;注:
若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
点【确定】回到原窗口,点【运行】得到双击上表,得到更多的描述:
结果说明:
(1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频数为22,理论频数为25,残差=-3;可以计算卡方值=32+(-3)2/25=
(2)卡方检验的P值=,故接受原假设H0,即认为男女性别人数无差异。
注:
卡方检验的P值是近似P值,若用“二项分布检验”计算出精确P值=.另外,上述卡方检验也可以用:
【分析】【非参数检验】【旧对话框】【卡方】得到的结果是一致的。
二、两样本或多样本案例比较不同类的构成比或发生率的差异问题:
两组收入不同的受访家庭其轿车拥有率的比较。
使用【交叉表】的卡方检验来实现,需要注意:
若交叉表中存在有序分类变量,则适合用秩和检验而不是卡方检验。
有数据文件:
变量O1表示是否拥有轿车:
“1=有,2=没有”;变量Ts9表示收入级别:
“1=万以上,2=万以上”。
1.【分析】【描述统计】【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图”;2.点【统计量】,打开“统计量”子窗口,勾选“卡方”表示进行卡方检验;3.点【继续】回到原窗口,点【单元格】打开“单元显示”窗口,【计数】输出观察频数和理论频数,默认勾选“观察值”;【百分比】勾选“行”;【非整数权重】设置小数权重问题,保持默认;注:
“残差”设置残差的输出方式;“z-检验”对多于两组的数据做两两组间比较;点【继续】回到原窗口,点【确定】得到案例处理摘要案例有效的缺失合计N百分比N百分比N百分比家庭收入2级*O1.是否拥有家用轿车989%158%1147%家庭收入2级*O1.是否拥有家用轿车交叉制表O1.是否拥有家用轿车合计有没有计数32303335家庭收入2级Below48,000家庭收入2级中的%Over48,000计数225429654家庭收入2级中的%合计计数257732989家庭收入2级中的%低收入家庭有%拥有轿车;高收入家庭%拥有轿车。
卡方检验值df渐进Sig.(双侧)精确Sig.(双侧)精确Sig.(单侧)Pearson卡方1.000连续校正b1.000似然比1.000Fisher的精确检验.000.000线性和线性组合1.000有效案例中的N989a.0单元格%)的期望计数少于5。
最小期望计数为。
b.仅对2x2表计算脚注a说明没有单元格的期望频数5,满足Pearson卡方检验要求,故看Pearson卡方检验结果即可:
P值=040,所有期望频数都1,只有1/5以下的单元格期望频数5;(3)“Fisher精确检验”:
不需要近似,结果最精确,但耗时多;若样本量40,有单元格的期望频数1的4格表,需要用该检验;若有单元格的期望频数1,或5的期望频数较多,也可采用该检验;(4)“似然比”:
用似然比公式计算卡方,在处理多维表是有更大优势;(5)“线性卡方”:
检验的原假设H0是行列变量间无线性相关,在列联表分类变量中很少用,更多用于连续变量。
(三)检验两分类变量间的关联程度例如,进行客户满意度研究中,价格、质量、服务都与总体满意度相关,哪项与总体满意度关系更密切?
卡方值的大小可以粗略地反映两变量联系的强弱,更精确的描述可以用“相对危险度”和“优势比”。
(1)相对危险度(RR)实验组人群反应阳性概率与对照组人群反应阳性概率的比值,即用于反应实验因素与反应阳性的关联程度,RR=1表明二者无关联;RR1,则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。
注:
当反应阳性概率时,OR可作为RR的近似。
优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的3倍。
问题:
描述家庭收入级别与拥有轿车的关联程度1.【分析】【描述统计】【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;2.点【统计量】,打开“统计量”子窗口,勾选“风险”用来计算OR值和RR值;点【继续】回到原窗口,点【确定】得到家庭收入2级*O1.是否拥有家用轿车交叉制表O1.是否拥有家用轿车合计有没有家庭收入2级Below48,000计数32303335家庭收入2级中的%Over48,000计数225429654家庭收入2级中的%合计计数257732989家庭收入2级中的%风险估计值95%置信区间下限上限家庭收入2级(Below48,000/Over48,000)的几率比.201.135.300用于cohortO1.是否拥有家用轿车=有.278.196.392用于cohortO1.是否拥有家用轿车=没有有效案例中的N989
(1)优势比OR是两个比数之比:
低收入家庭拥有轿车的比例为%,没有轿车的比例是%,其比数为%/%=;高收入家庭的比数为:
%/%=;故OR值=该值的95%置信区间=,不包含1(有统计学意义);
(2)相对危险度RR1是两组人群拥有轿车的概率之比,其估计值为%/%=,说明高收入家庭拥有轿车的概率是低收入家庭的1/=倍,RR1值的95%置信区间=,不包含1(有统计学意义);(3)相对危险度RR2是两组人群没有轿车的概率之比,估计值为%/%=.注:
上述三个指标实际上是等价的;另外,OR值也等于有车与无车的相对危险度之比(/=)。
(四)分层卡方检验前文已经得到家庭收入级别会影响轿车拥有情况,那么进一步,不同城市是否存在差异?
即“城市”因素是否也是影响轿车拥有的协变量?
另外“学历”因素呢?
分层卡方检验就是解决上述问题常用的一种方法。
问题:
在前文的基础上,进一步在控制“城市”的影响的前提下,更准确地描述家庭收入与轿车拥有的关联程度。
1.【分析】【描述统计】【交叉表】,打开“交叉表”窗口;将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;将变量“s1城市”选入【层1的1】框;2.点【统计量】,打开“统计量”子窗口,勾选“风险”、“CochransandMantel-Haenszel统计量”,点【继续】;点【确定】,得到结果家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表计数S1.城市O1.是否拥有家用轿车合计有没有100北京家庭收入2级Below48,000993102Over48,00083134217合计92227319200上海家庭收入2级Below48,0004103107Over48,00070160230合计74263337300广州家庭收入2级Below48,00019107126Over48,00072135207合计91242333合计家庭收入2级Below48,00032303335Over48,000225429654合计257732989风险估计S1.城市值95%置信区间下限上限100北京家庭收入2级(Below48,000/Over48,000)的几率比.156.075.326用于cohortO1.是否拥有家用轿车=有.231.121.440用于cohortO1.是否拥有家用轿车=没有有效案例中的N319200上海家庭收入2级(Below48,000/Over48,000)的几率比.089.031.251用于cohortO1.是否拥有家用轿车=有.123.046.328用于cohortO1.是否拥有家用轿车=没有有效案例中的N337300广州家庭收入2级(Below48,000/Over48,000)的几率比.333.189.586用于cohortO1.是否拥有家用轿车=有.434.275.683用于cohortO1.是否拥有家用轿车=没有有效案例中的N333合计家庭收入2级(Below48,000/Over48,000)的几率比.201.135.300用于cohortO1.是否拥有家用轿车=有.278.196.392用于cohortO1.是否拥有家用轿车=没有有效案例中的N989由于设置了分层变量,故按分层变量的水平值单独对每一层进行风险估计。
上海的OR值=,而广州的OR值=,说明是有地区差异的。
几率比的均一性检验卡方df渐进Sig.(双侧)Breslow-Day2.046Tarone的2.046层间差异的检查结果(不同城市家庭收入与轿车拥有的联系是否相同),原假设H0:
层间无差异;P值=,拒绝原假设H0,即不同城市是有差异的,因此不能简单地将不同城市数据总体处理得到结果。
条件的独立性检验卡方df渐进Sig.(双侧)Cochran的1.000Mantel-Haenszel1.000在条件的独立性假定下,仅当层数固定时Cochran的统计量才渐进分布为1df卡方分布,而Mantel-Haenszel统计量始终渐进分布为1df卡方分布。
注意,当观测值和期望值差值之和为0时,将从Mantel-Haenszel统计量中删除连续校正。
分层卡方检验(即去除分层因素“城市”的影响之后,家庭收入与轿车拥有的关联性)的两种结果:
CMH卡方检验和MH卡方检验,前者是后者的改进。
P值=0,说明“家庭收入”与“轿车拥有”有关联,但由于前面检验的层间差异有统计学意义,所以这个结论仅供参考。
Mantel-Haenszel一般几率比估计估计.195ln(估计)ln(估计)的标准误差.206渐进Sig.(双侧).000渐进.95%置信区间一般几率比下限.130上限.292ln(一般几率比)下限上限Mantel-Haenszel一般几率比估计在假定的一般几率比下渐进地正态分布。
因此是估计的自然对数。
给出了调整了分层因素作用后的综合OR值:
ORMH值=(原OR值=),P值=0,说明结果显著。
注:
(1)分层卡方检验是一种很好的控制其他因素的方法,从而能得到更准确的结果,若样本量足够大还可用引入更多的分层。
(2)SPSS的CMH卡方检验只能进行两分类变量检验,而不能进行多分类变量的检验;当分层变量和要分析的变量存在交互作用时,分层卡方检验就不再适用,此时应当考虑用对数线性模型或Logistic模型来进行更为深入和准确的分析。
(五)配对设计列联表的Kappa一致检验以及配对卡方检验一、Kappa一致检验配对设计列联表的行变量和列变量反应的是同一事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。
例如,某疾病的诊断结果表,行变量为一种诊断方法,列变量为另一种诊断方法;对某事物的评价等级表,行变量和列变量分别显示不同专家的评价。
对于配对设计列联表,希望检验两种方法给出的结果是否一致,适合用Kappa一致检验。
注意:
Pearson卡方检验只能检验两种测量结果之间是否存在关联,不能判断其是否具有一致性。
问题:
某公司扩展业务开新分店选址,请两位顾问分别对20个地址进行评价,分为好、中、差3个等级,想知道两人的评价结果是否一致?
count=频数,cons1,cons2表示两位顾问的评价:
1=差,2=中,3=好;例如第一行数据:
6,1,1表示两顾问都评为“差”的有6个地址。
1.【数据】【加权个案】,打开“加权个案”窗口,勾选“加权个案”,将变量“频数”选入【频率变量】框,点【确定】2.【分析】【统计描述】【交叉表】,打开“交叉表”窗口,将变量“cons1,cons2”分别选入【行】【列】框;3.点【统计量】,打开“统计量”子窗口,勾选“Kappa”,点【继续】;4.由于数据量较小才用精确检验,点【精确】,打开“精确检验”子窗口,勾选“精确”,点【继续】;点【确定】得到顾问一的评价*顾问二的评价交叉制表计数顾问二的评价合计差中好顾问一的评价差6006中5229好1045合计122620对称度量值渐进标准误差a近似值Tb近似值Sig.精确Sig.一致性度量Kappa.429.131.001.001有效案例中的N20a.不假定零假设。
b.使用渐进标准误差假定零假设。
结果说明:
Kappa检验的原假设H0:
Kappa值=0,即两者完全不一致;本例中,P值=,拒绝原假设H0,即认为结果存在一致性。
注:
(1)Kappa值,即内部一致性系数。
根据经验,一般当Kappa值时,认为一致性较好;Kappa值时,一致性一般;Kappa值时,一致性较差;
(2)一致性检验在医学上应用较多(简单异形的诊断方法是否能替代操作复杂的诊断方法);数据分析中,比较两种预测结果的一致性时,也可能用到一致性检验。
二、McNemar配对卡方检验两位顾问的评价似乎不太一样,如何加以分析?
McNemar配对卡方检验适合解决该问题。
在Kappa一致检验的第3步,勾选“McNemar”即可。
得到结果:
卡方检验值df渐进Sig.(双侧)McNemar-Bowker检验3.046有效案例中的N20原假设H0:
两顾问的评价无差别,P值=,拒绝原假设H0,即两者评价有差别。
注:
Kappa一致检验会利用列联表的全部信息;McNemar配对卡方检验只利用非主对角线单元格的信息(更关心两者的差异)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 学习 系列 24 检验