独立性检验的基本思想及其初步应用上课用.ppt
- 文档编号:2709869
- 上传时间:2022-11-08
- 格式:PPT
- 页数:24
- 大小:1.28MB
独立性检验的基本思想及其初步应用上课用.ppt
《独立性检验的基本思想及其初步应用上课用.ppt》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用上课用.ppt(24页珍藏版)》请在冰豆网上搜索。
1.2独立性检验的基本思想及其初步应用第1课时1.两种变量及研究相关关系的方法:
两种变量及研究相关关系的方法:
变量变量分类变量分类变量定量变量定量变量例如:
身高、体重、考试成绩,温度等等例如:
身高、体重、考试成绩,温度等等3)例如是性别,否吸烟,是否患肺癌,宗教信仰等等)例如是性别,否吸烟,是否患肺癌,宗教信仰等等1)变量的不同)变量的不同“值值”表示表示个体的不同类别个体的不同类别的变量的变量(也叫属性变量或者定性变量)也叫属性变量或者定性变量)定量变量的取值一定是实数,定量变量的取值一定是实数,它们的取值大小有特定它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义。
的含义,不同取值之间的运算也有特定的含义。
2)分类变量的取值一定是离散的)分类变量的取值一定是离散的研究两个定量变量相关关系的方法:
回归分析(画散研究两个定量变量相关关系的方法:
回归分析(画散点图,相关系数点图,相关系数r,相关指数相关指数R2,残差分析等)残差分析等)4)研究两个分类变量相关关系的方法:
)研究两个分类变量相关关系的方法:
通过图形直观判断两个分类变量是否相关;通过图形直观判断两个分类变量是否相关;独立性检验独立性检验法法.本节研究的是本节研究的是两个分类变量的独立性检验问题两个分类变量的独立性检验问题。
在日常生活中,我们主要考虑在日常生活中,我们主要考虑分类变量的之间是否有关系分类变量的之间是否有关系:
例如,:
例如,吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?
等等。
吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?
等等。
在统计学中,在统计学中,独立性检验独立性检验就是检验两个就是检验两个分类变量分类变量是否有关系的一种统计方法。
是否有关系的一种统计方法。
一一.引入新课:
引入新课:
2.引入:
引入:
二二.问题:
问题:
为为了调查吸烟是否对肺癌有影响,某肿瘤研究所了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地随机地调调查了查了99659965人,得到如下结果(单位:
人)人,得到如下结果(单位:
人)22列列联表联表思考:
思考:
思考:
思考:
根据以上表格。
能否断定吸烟对患肺癌有影响?
根据以上表格。
能否断定吸烟对患肺癌有影响?
根据以上表格。
能否断定吸烟对患肺癌有影响?
根据以上表格。
能否断定吸烟对患肺癌有影响?
判断的标准是什么?
判断的标准是什么?
判断的标准是什么?
判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异?
吸烟与不吸烟,患病的可能性的大小是否有差异?
不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965吸烟与患肺癌吸烟与患肺癌列联表列联表(列出两个分类变量的频数表):
(列出两个分类变量的频数表):
方法1.用频率估计概率患病未患病合计(n)吸烟2.28%97.72%100%(2148)不吸烟0.54%99.46%100%(7817)方法方法2.通过图形直观判断通过图形直观判断由上表可看出,在由上表可看出,在不吸烟者中患肺癌的比重是不吸烟者中患肺癌的比重是在在吸烟者中患肺癌的比重是吸烟者中患肺癌的比重是0.54%0.54%2.28%2.28%根据统计分析的思想,用频率估计概率可知,吸吸烟者和不吸烟者患肺癌烟者和不吸烟者患肺癌的可的可能能性存在差异,吸性存在差异,吸烟者患肺烟者患肺癌的可能性大癌的可能性大等高条形图等高条形图患肺患肺癌比癌比例例不患肺不患肺癌比癌比例例由上述图形显然可以得到结论是:
由上述图形显然可以得到结论是:
吸烟与患肺癌有关吸烟与患肺癌有关思考:
这种判断可靠吗?
这种判断可靠吗?
你能有多大把握认为“患病与吸烟有关”呢?
注意:
与表格相比,图形能与表格相比,图形能更直观地反映出相关数更直观地反映出相关数据的总体状况。
据的总体状况。
首先,假设结论不成立,即记首先,假设结论不成立,即记HH00:
吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系思考思考:
通过数据和图表分析,得到结论是:
通过数据和图表分析,得到结论是:
吸烟与患肺癌有关吸烟与患肺癌有关.这种判断可靠吗?
这种判断可靠吗?
你能有多大把握认为“患病与吸烟有关”呢?
吸烟与患肺癌列联表吸烟与患肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aabba+ba+b吸烟吸烟ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d吸烟的人中不患肺癌的比例:
吸烟的人中不患肺癌的比例:
不不吸烟的人中不患肺癌的比例:
吸烟的人中不患肺癌的比例:
若H0成立,即即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则在吸烟者中不患在吸烟者中不患肺癌肺癌的比例的比例应应该该与与不吸烟不吸烟中不患肺癌的中不患肺癌的比例比例应差不多应差不多,即,即|ad-bc|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|ad-bc|越大,说明吸烟与患肺癌之间关系越强越大,说明吸烟与患肺癌之间关系越强.1.1.为了使不同样本容量的数据有统一的评判标准,基于上面的分为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们引析,我们引入一个随机入一个随机变量变量(其中(其中n=n=a+b+c+da+b+c+d为样本容量为样本容量)作为作为检检验在验在多大程度上多大程度上可以认为可以认为“两个变量有关两个变量有关系系”的标准的标准思考:
思考:
k2k2大小的标准是什么呢?
大小的标准是什么呢?
在假设在假设HH00成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”成立的前提下,成立的前提下,则则KK22应该很小应该很小.故,当故,当K2K2很小时,说明在一定可信程度上很小时,说明在一定可信程度上假设假设H0成立,即成立,即“吸烟与患肺癌吸烟与患肺癌没有关系没有关系”成立成立当当K2很大时,说明没有充分的证据说明假设很大时,说明没有充分的证据说明假设H0成立,即没有充分的成立,即没有充分的证据说明证据说明“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”成立,即成立,即“吸烟与患肺癌没有吸烟与患肺癌没有关系关系”不成立,即不成立,即“吸烟与患肺癌有关系吸烟与患肺癌有关系”成立,成立,分析:
分析:
K2K2越小,越小,|ad-|ad-bcbc|越小越小,说明吸烟与患肺癌之间说明吸烟与患肺癌之间关关系越弱;系越弱;K2越大,越大,|ad-bc|ad-bc|越大越大,说明吸烟与患肺癌之间说明吸烟与患肺癌之间关关系越强系越强.k2k2大小的标准是什么呢?
大小的标准是什么呢?
10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.50临界临界值表值表(11)如)如果果k=10.828k=10.828,就有,就有99.9%99.9%的把握认为的把握认为“XX与与YY有关系有关系”;(22)如果如果k=6.635k=6.635,就有,就有99%99%的把握认为的把握认为“XX与与YY有关系有关系”;(33)如果如果k=2.706k=2.706,就有,就有90%90%的把握认为的把握认为“XX与与YY有关系有关系”;(44)如果如果k=2.706k6.635k6.635,说明假设不合理,说明假设不合理的程度的程度约为约为99%99%,即即“两个两个分类有关分类有关系系”这一结论成立的这一结论成立的可信程可信程度约为度约为99%.99%.注意:
反证法原理与假设检验原理区别:
注意:
反证法原理与假设检验原理区别:
反证法原理反证法原理在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
假设检验原理假设检验原理在在一一个个已已知知假假设设下下,如如果果推推出出一一个个小小概概率率事事件件发发生生,则则推推断断这这个个假假设设不不成立的可能性很大。
成立的可能性很大。
1.2独立性检验的基本思想及其初步应用第2课时11.独立性检验定义:
独立性检验定义:
用用统统计量来确定在多大程度上可以计量来确定在多大程度上可以认为认为“两个分类变两个分类变量有关量有关系系”的方法的方法称为这两个分类称为这两个分类变量变量的的独立性检验独立性检验。
2.2.为了使不同样本容量的数据有统一的评判标准,基于上面的分为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们引析,我们引入一个随机入一个随机变量变量(其中(其中n=n=a+b+c+da+b+c+d为样本容量为样本容量)作为作为检检验在验在多大程度上多大程度上可以认为可以认为“两个变量有关两个变量有关系系”的标准的标准注:
注:
K2K2越小,越小,|ad-|ad-bcbc|越小,说越小,说明两个分类变量之明两个分类变量之间关系越弱;间关系越弱;K2越大,越大,|ad-bc|ad-bc|越大,说越大,说明两个分类变量之明两个分类变量之间关系越强间关系越强.4.k24.k2大小的标准是大小的标准是临界值临界值kk10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.50临界临界值表值表(11)如)如果果k=10.828k=10.828,就有,就有99.9%99.9%的把握认为的把握认为“XX与与YY有关系有关系”;(22)如果如果k=6.635k=6.635,就有,就有99%99%的把握认为的把握认为“XX与与YY有关系有关系”;(33)如果如果k=2.706k=2.706,就有,就有90%90%的把握认为的把握认为“XX与与YY有关系有关系”;(44)如果如果k=2.706k6.635,说明假设不合理的程度约为,说明假设不合理的程度约为99%,即即“两个分类有关系两个分类有关系”这一结论成立的可信程度约为这一结论成立的可信程度约为99%,或说明有或说明有99%的把握认为两个分类变量有关系的把握认为两个分类变量有关系否则就说由样本观测数据没有充分证据显示否则就说由样本观测数据没有充分证据显示“X与与Y有关系有关系”.2.假设假设假设假设H0:
两个变量:
两个变量X与与Y没有关系没有关系成立成立1.1.确定临界值确定临界值k0根根据实际问题需要的可信程度确定临界值据实际问题需要的可信程度确定临界值kk00;10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.50例例1.1.在在500500人人身身上上试试验验某某种种血血清清预预防防感感冒冒作作用用,把把他他们们一一年年中中的的感感冒冒记记录录与与另另外外500500名名未未用用血血清清的的人人的的感感冒冒记记录录作作比比较较,结结果如表所示。
果如表所示。
未感冒未感冒感冒感冒合计合计使用血清使用血清252248500未使用血清未使用血清224276500合计合计4765241000试画出列联表的条形图,并通过图形判断这种血清能否起到预试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?
并进行独立性检验。
防感冒的作用?
并进行独立性检验。
在研究某种新措施对猪白痢的防治效果问题时,在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
得到以下数据:
试问新措施对防止猪白痢是否有效?
试问新措施对防止猪白痢是否有效?
存活率存活率死亡率死亡率合计合计对照对照11436150新措施新措施13218150合计合计246543001、能够通过等高条形图粗略估计两个分类变量之间是否有关系、能够通过等高条形图粗略估计两个分类变量之间是否有关系2、利用、利用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 独立性 检验 基本 思想 及其 初步 应用 上课