高中数学《独立性检验的基本思想及其初步应用》导学案.docx
- 文档编号:27008877
- 上传时间:2023-06-25
- 格式:DOCX
- 页数:23
- 大小:360.79KB
高中数学《独立性检验的基本思想及其初步应用》导学案.docx
《高中数学《独立性检验的基本思想及其初步应用》导学案.docx》由会员分享,可在线阅读,更多相关《高中数学《独立性检验的基本思想及其初步应用》导学案.docx(23页珍藏版)》请在冰豆网上搜索。
高中数学《独立性检验的基本思想及其初步应用》导学案
知识点
分类变量及2×2列联表
1.分类变量
变量的不同“值”表示个体所属的
不同类别,像这样的变量称为分类变量.
2.列联表
(1)定义:
列出的两个分类变量的
频数表,称为列联表.
(2)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为
{x1,x2}和
{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点
等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否
相互影响,常用等高条形图展示列联表数据的
频率特征.
(2)观察等高条形图发现
和
相差很大,就判断两个分类变量之间
有关系.
知识点
独立性检验
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
1.判一判(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.( )
(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小.( )
(3)独立性检验的方法就是反证法.( )
答案
(1)×
(2)√ (3)×
2.做一做
(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集以下数据________.
(2)若观测值k≈7.8,得到的正确结论是在犯错误的概率不超过________的前提下认为“爱好该项运动与性别有关”.
(3)独立性检验中,假设H0:
变量x与变量y没有关系.则在H0成立的情况下,估计概率P(K2≥6.635)≈0.01表示的意义是变量x与变量y________(填“有关系”或“无关系”)的概率是99%.
答案
(1)男女生中喜欢和不喜欢踢足球的人数
(2)1% (3)有关系
解析
(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集男女生中喜欢和不喜欢踢足球的人数,再得出2×2列联表,最后代入随机变量的观测值公式,得出结果.
(2)因为7.8>6.635,所以这个结论有0.01=1%的机会说错,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”.
(3)因为概率P(K2≥6.635)≈0.01,所以两个变量有关系的可信度是1-0.01=99%,即两个变量有关系的概率是99%.
探究
独立性检验的基本思想
例1 在吸烟与患肺病这两个分类变量中,下列说法正确的是( )
A.若K2的观测值k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个人患有肺病
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
[解析] 独立性检验的结果是一种相关关系,不是确定性关系,反映的是有关或无关的概率的大小,故A错误,B错误,C正确.答案选C.
[答案] C
拓展提升
本例考查独立性检验的基本思想,相关性检验的结果是一种相关关系,而不是确定性关系,是反映有关和无关的概率.本题考查学生对基本知识的理解.
给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关
B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关
D.青少年犯罪与上网成瘾是否有关
答案 B
解析 独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是B.故选B.
通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=
算得,
K2=
≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
答案 C
解析 根据独立性检验的定义,由k2≈7.8>6.635可知在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”,即有99%以上的把握认为“爱好该项运动与性别有关”.故选C.
探究
用等高条形图判断两个变量是否相关
例2 为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:
药物效果试验列联表
患病
未患病
总计
服用药
10
45
55
未服用药
20
30
50
总计
30
75
105
试用等高条形图分析服用药和患病之间是否有关系.
[解] 根据列联表所给的数据可得出服用药患病的频率为
≈0.18,未服用药患病的频率为
=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病之间有关系的程度很大.
拓展提升
应用等高条形图判断两变量是否相关的方法
在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例
.“两个比例的值相差越大,H1成立的可能性就越大”.
某学校对高三学生作了一项调查发现:
在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
解 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
探究
由K2进行独立性检验
例3 某校对学生课外活动进行调查,结果整理成下表:
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
[解] 其等高条形图如图所示.
由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:
假设“喜欢体育还是喜欢文娱与性别没有关系”,
∵a=21,b=23,c=6,d=29,n=79.
∴K2=
=
≈8.106.
且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106,超过7.879,这就意味着:
“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关.”
拓展提升
独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
(2)利用公式K2=
计算随机变量K2的观测值k.
(3)如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
某地区甲校高二年级有1100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:
(已知本次测试合格线是50分,两校合格率均为100%)
甲校高二年级数学成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
10
25
35
30
x
乙校高二年级数学成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
15
30
25
y
5
(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分);
(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?
”
甲校
乙校
总计
优秀
非优秀
总计
解
(1)依题意知甲校应抽取110人,乙校应抽取90人,
∴x=10,y=15,
估计两个学校的平均分,甲校的平均分为
≈75.
乙校的平均分为
≈71.
(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表
甲校
乙校
总计
优秀
40
20
60
非优秀
70
70
140
总计
110
90
200
k=
≈4.174,
又因为4.174>3.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.
1.独立性检验是数理统计的一种方法,是数学中的一种基本理论,是数学体系中对数据关系进行探索的一种基本思想.判断两个分类变量是否相关可以通过等高条形图进行粗略判断,也可以通过独立性检验来考察两个分类变量是否有关系,利用公式K2=
计算出随机变量K2的观测值k,通过查表确定临界值k0.若k>k0说明X与Y有关系,否则是没有关系.
2.解决一般的独立性检验问题的步骤
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=
求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
其中第
(2)步易算错K2的值,是本节课的易错点.
1.在独立性检验中,假设H0:
变量x与变量y没有关系,则在H0成立的情况下,P(K2≥6.635)≈0.01表示( )
A.变量x与变量y有关系的概率是1%
B.变量x与变量y有关系的概率是99%
C.变量x与变量y没有关系的概率是0.1%
D.变量x与变量y没有关系的概率是99.9%
答案 B
解析 因为P(K2≥6.635)≈0.01,所以两个变量有关系的可信度是99%,即两个变量有关系的概率是99%.故选B.
2.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
文化程度与月收入列联表(单位:
人)
由上表中数据计算得K2的观测值
k=
≈6.109,请估计有多大把握认为“文化程度与月收入有关系”( )
A.1%B.99%
C.2.5%D.97.5%
答案 D
解析 由于6.109>5.024,故在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为“文化程度与月收入有关系”.
3.如图是某地区男女中学生是否喜欢理科的等高条形图,从图中可以看出( )
A.是否喜欢理科与性别无关
B.女生中喜欢理科的百分比约为80%
C.男生比女生喜欢理科的可能性大
D.男生中不喜欢理科的百分比约为60%
答案 C
解析 由等高条形图,可知女生中喜欢理科的百分比约为1-0.8=0.2=20%,男生中喜欢理科的百分比约为1-0.4=0.6=60%,因此男生比女生喜欢理科的可能性大.故选C.
4.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
则在犯错误的概率不超过________的前提下认为喜爱打篮球与性别有关(请用百分数表示).
答案 0.5%
解析 K2=
=
≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关.
5.吃零食是在中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利影响,并影响他们的健康成长.下表是性别与喜欢吃零食的列联表:
男
女
合计
喜欢吃零食
5
12
17
不喜欢吃零食
40
28
68
合计
45
40
85
试用等高条形图分析性别与吃零食是否有关系.
解 根据列联表所给的数据,可得出男生中喜欢吃零食的频率为
≈0.11,女生中喜欢吃零食的频率为
=0.3,两者差距是|0.3-0.11|=0.19.两者相差较大,作出等高条形图如图所示,比较图中两个深色的条形可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与喜欢吃零食有关系.
A级:
基础巩固练
一、选择题
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
答案 B
解析 k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即k越小,“X与Y有关系”的可信程度越小.故选B.
2.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A和B有关系,则具体计算出的数据应该是( )
A.k≥6.635B.k<6.635
C.k≥7.879D.k<7.879
答案 C
解析 有99.5%的把握认为事件A和B有关系,即犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.
3.某高校《统计》课程的教师随机给出了选该课程的一些情况,具体数据如下:
非统计专业
统计专业
男
13
10
女
7
20
为了判断选修统计专业是否与性别有关,根据表中数据,得K2≈4.844,因为K2>3.841,所以可以判定选修统计专业与性别有关.那么这种判断出错的可能性为( )
A.5%B.95%
C.1%D.99%
答案 A
解析 若K2>3.841,说明有95%的把握认为选修统计专业与性别有关,即有5%的把握认为选修统计专业与性别无关,也就是“选修统计课程与性别有关”出错的可能性为5%.
4.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大?
( )
A.
与
B.
与
C.
与
D.
与
答案 C
解析 由等高条形图可知
与
的值相差越大,
|ad-bc|就越大,相关性就越强.
5.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( )
A.99%B.95%
C.90%D.无充分依据
答案 B
解析 由表中数据得K2=
≈5.059>3.841,所以约有95%的把握认为两变量之间有关系.
二、填空题
6.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关?
________(填“是”或“否”).
答案 是
解析 因为在20岁至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即
=
,
=
,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
7.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
答案 ③
解析 K2的观测值是支持确定有多大的把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
8.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发现K2=6.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是________.
P(K2≥k0)
…
0.025
0.010
0.005
…
k0
…
5.024
6.635
7.879
…
答案 97.5%
解析 ∵K2=6.023>5.024,∴可断言市民收入增减与旅游愿望有关系的可信程度为97.5%.
三、解答题
9.某学生对其30位亲属的饮食习惯进行了一次调查,并用如图所示的茎叶图表示他们的饮食指数(说明:
图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;
(2)根据以上数据完成如下2×2列联表;
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关?
并写出简要分析.
解
(1)由茎叶图,可知30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.
(2)2×2列联表如下所示:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)由题意,知随机变量K2的观测值
k=
=10>7.879,
故有99.5%的把握认为其亲属的饮食习惯与年龄有关.
B级:
能力提升练
10.甲、乙两台机床生产同一型号零件.记生产的零件的尺寸为t(cm),相关行业质检部门规定:
若t∈(2.9,3,1],则该零件为优等品;若t∈(2.8,2.9]∪(3.1,3.2],则该零件为中等品;其余零件为次品.现分别从甲、乙机床生产的零件中各随机抽取50件,经质量检测得到下表数据:
(1)设生产每件产品的利润为:
优等品3元,中等品1元,次品亏本1元.若将频率视为概率,试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;
(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由.
参考公式:
K2=
参考数据:
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
k0
1.323
2.072
2.706
3.841
5.024
6.635
解
(1)设甲机床生产一件零件获得的利润为X元,它的分布列为
X
3
1
-1
P
0.8
0.14
0.06
则有E(X)=3×0.8+1×0.14+(-1)×0.06=2.48.
所以甲机床生产一件零件的利润的数学期望为2.48元.
(2)由表中数据可知,甲机床优等品40件,非优等品10件;乙机床优等品30件,非优等品20件.
制作2×2列联表如下:
甲机床
乙机床
合计
优等品
40
30
70
非优等品
10
20
30
合计
50
50
100
计算K2=
=
≈4.762.
考察参考数据并注意到3.841<4.762<5.024,可知:
对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 独立性检验的基本思想及其初步应用 高中数学 独立性 检验 基本 思想 及其 初步 应用 导学案