高考数学文一轮复习备考学案《变量间的相关关系统计案例》北师大版.docx
- 文档编号:28197124
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:25
- 大小:146.64KB
高考数学文一轮复习备考学案《变量间的相关关系统计案例》北师大版.docx
《高考数学文一轮复习备考学案《变量间的相关关系统计案例》北师大版.docx》由会员分享,可在线阅读,更多相关《高考数学文一轮复习备考学案《变量间的相关关系统计案例》北师大版.docx(25页珍藏版)》请在冰豆网上搜索。
高考数学文一轮复习备考学案《变量间的相关关系统计案例》北师大版
第四节
变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:
一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)回归方程为y=bx+a,其中b=
,a=
-b
.
(3)通过求
的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
χ2=
(其中n=a+b+c+d为样本容量).
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(
,
)点,可能所有的样本数据点都不在直线上.
3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
[试一试]
1.(2013·石家庄调研)下列结论正确的是( )
①函数关系是一种确定性关系;
②相关关系是一种非确定性关系;
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;
④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④D.①②③④
解析:
选C 由回归分析的方法及概念判断.
2.已知x,y之间的数据如表所示,则回归直线过点( )
x
1
2
3
4
5
y
1.2
1.8
2.5
3.2
3.8
A.(0,0)B.(2,1.8)
C.(3,2.5)D.(4,3.2)
解析:
选C 回归直线恒过定点(
,
),故
=3,
=2.5.
1.求回归直线方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;
(2)计算出
,
,
,
iyi的值;
(3)计算回归系数a,b;
(4)写出回归直线方程y=bx+a.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=
计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
[练一练]
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
解析:
选D 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.
2.在2012伦敦奥运会期间,某网站针对性别是否与看奥运会直播有关进行了一项问卷调查,得出如下表格:
性别
是否看奥运会直播
男
女
看奥运会直播
6000
2000
不看奥运会直播
2000
2000
则χ2=( )
A.700B.750
C.800D.850
解析:
选B 由题意知,
χ2=
=750.
考点一
相关关系的判断
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:
选C 由题知夹在带状区域内的点,总体呈上升趋势的属于正相关;反之,总体呈下降趋势的属于负相关.由图可知,选C.
2.已知变量x,y呈线性相关关系,线性回归方程为y=0.5+2x,则变量x,y是( )
A.线性正相关关系
B.由回归方程无法判断其正负相关
C.线性负相关关系
D.不存在线性相关关系
解析:
选A 随着变量x增大,变量y有增大的趋势,则x,y称为正相关.
3.(2014·镇江模拟)如图所示,有A,B,C,D,E,5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.
解析:
由散点图知呈带状区域时有较强的线性相关关系,故去掉D.
答案:
D
[类题通法]
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.
考点二
回归方程的求法及回归分析
[典例] 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1到6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差x(℃)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该兴趣小组确定的研究方案是:
先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用选取的2组数据进行检验.
(1)若选取的是1月与6月的2组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试求该小组所得的线性回归方程是否理想?
[解]
(1)由数据得
=
=11,
=
=24,
由公式得b=
,
再由a=
-b
得a=-
,
所以y关于x的线性回归方程为y=
x-
.
(2)当x=10时,y=
,|
-22|<2,
同理,当x=6时,y=
,|
-12|<2,
所以该小组所得线性回归方程是理想的.
在本例
(1)条件下,试预测昼夜温差为5℃时,因感冒而就诊的人数约为多少?
解:
由
(1)知,y=
x-
,
当x=5时,y=
-
=
≈8.6,
∴当温差为5℃时,就诊的人数约为9人.
[类题通法]
利用线性回归方程可以对总体进行预测估计,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据,依据自变量的取值估计和预测因变量的值,在现实生活中有广泛的应用.
[针对训练]
(2013·大连模拟)已知下列表格所示数据的回归直线方程为y=3.8x+a,则a的值为________.
x
2
3
4
5
6
y
251
254
257
262
266
解:
由已知得,
=4,
=258,因为点(
,
)在回归直线上,所以a=242.8.
答案:
242.8
考点三
独立性检验
[典例] (2013·福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:
[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
P(χ2≥x0)
0.100
0.050
0.010
0.001
x0
2.706
3.841
6.635
10.828
附:
χ2=
[解]
(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:
(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=
.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得χ2=
=
=
≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
[类题通法]
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
[针对训练]
2012年欧洲杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
40岁以上
p
q
50
不高于40岁
15
35
50
总计
a
b
100
已知工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为
,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附χ2=
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:
设“从所有人中任意抽取一个取到喜欢西班牙队的人”为事件A,由已知得P(A)=
=
,所以p=25,q=25,a=40,b=60,χ2=
=
=
≈4.167>3.841,故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
答案:
95%
[课堂练通考点]
1.(2013·石家庄模拟)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )
A.x和y正相关
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在-1到0之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:
选C 由题图知,回归直线的斜率为负值,所以x与y是负相关,且相关系数在-1到0之间,所以C正确,选择C.
2.(2013·云南模拟)变量U与V相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U与V的线性回归分析,R2表示解释变量对于预报变量变化的贡献率,则R2=( )
A.
B.
C.1D.3
解析:
选C 依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y-1.4=
(x-1),即y=0.8x+0.6上,因此解释变量对于预报变量变化的贡献率R2=1,选C.
3.浙江卫视为了调查评价“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高,在播出前后分别从居民点抽取了100位居民,调查对浙江卫视的关注情况,制成列联表,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )
A.有99%的人认为该栏目优秀
B.有99%的人认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高
C.有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高
D.没有理由认为“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高
附表:
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
解析:
选D 只有χ2>6.635才能有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高,而即使χ2>6.635也只是对“浙江卫视收视率有明显提高”这个论断成立的可能性大小的结论,与是否有99%的人认为该栏目优秀或收视率提高等无关.故选D.
4.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2的观测值x0=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).
解析:
由观测值x0=27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关.
答案:
有关
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,得到χ2=
≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:
因为χ2≈4.844>3.841,故认为选修文科与性别之间有关系出错的可能性约为5%.
答案:
5%
[课下提升考能]
第Ⅰ组:
全员必做题
1.(2014·枣庄模拟)下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72B.52,50
C.52,74D.74,52
解析:
选C ∵a+21=73,∴a=52,又a+22=b,∴b=74.
2.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程y=3-5x,变量x增加1个单位时,y平均增加5个单位;
③线性回归方程y=bx+a必过样本点的中心(
,
);
④在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.
其中错误的个数是( )
A.0B.1
C.2D.3
本题可以参考独立性检验临界值表
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:
选B 数据的方差与加了什么样的常数无关,①正确;对于回归方程y=3-5x,变量x增加1个单位时,y平均减少5个单位,②错误;由线性回归方程的相关概念易知③正确;因为χ2=13.079>x0=10.828,故有99%的把握确认这两个变量间有关系,④正确.
3.(2013·广州模拟)工人月工资(元)依劳动产值(千元)变化的回归直线方程为y=60+90x,下列判断正确的是( )
A.劳动产值为1000元时,工资为50元
B.劳动产值提高1000元时,工资提高150元
C.劳动产值提高1000元时,工资提高90元
D.劳动产值为1000元时,工资为90元
解析:
选C 回归系数的意义为:
解释变量每增加1个单位,预报变量平均增加b个单位.
4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由χ2=
,
算得χ2=
≈7.8.
附表:
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:
选C 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
5.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元B.65.5万元
C.67.7万元D.72.0万元
解析:
选B 样本中心点是(3.5,42),a=
-b
,则a=
-b
=42-9.4×3.5=9.1,
所以回归直线方程是y=9.4x+9.1,把x=6代入得y=65.5.
6.高三某学生高考成绩y(分)与高三期间有效复习时间x(天)正相关,且回归方程是y=3x+50,若期望他高考达到500分,那么他的有效复习时间应不低于________天.
解析:
本题主要考查运用线性回归方程来预测变量取值.
当y=500时,易得x=
=150.
答案:
150
7.高三某班学生每周用于物理学习的时间x(单位:
小时)与物理成绩y(单位:
分)之间有如下关系:
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
根据上表可得回归方程的斜率为3.53,则回归直线在y轴上的截距为________.(答案保留到0.1)
解析:
由已知可得
=
=17.4,
=
=74.9.
设回归直线方程为y=3.53x+a,则74.9=3.53×17.4+a,解得a≈13.5.
答案:
13.5
8.某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:
日期
4月10日
4月11日
4月12日
4月13日
4月14日
温差x(℃)
10
12
13
14
11
发芽数y(颗)
11
13
14
16
12
根据表中的数据可知发芽数y(颗)与温差x(℃)呈线性相关关系,则发芽数y关于温差x的线性回归方程为________.(参考公式:
回归直线方程y=bx+a,其中b=
,a=
-b
)
解析:
因为
=12,
=13.2,
所以b=
=1.2,于是,a=13.2-1.2×12=-1.2,故所求线性回归方程为y=1.2x-1.2.
答案:
y=1.2x-1.2
9.(2013·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.
数学
88
83
117
92
108
100
112
物理
94
91
108
96
104
101
106
(1)他的数学成绩与物理成绩哪个更稳定?
请给出你的证明;
(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?
并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.
解:
(1)
=100+
=100;
=100+
=100;
∴s
=
=142.∴s
=
.
从而s
>s
,∴物理成绩更稳定.
(2)由于x与y之间具有线性相关关系,根据回归系数公式得到
b=
=
=0.5,
a=
-b
=100-0.5×100=50.
∴回归方程为y=0.5x+50.
当y=115时,x=130,即该生物理成绩达到115分时,他的数学成绩大约为130分.
建议:
进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.
10.(2013·郑州模拟)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
60分以下
61~70分
71~80分
81~90分
91~100分
甲班(人数)
3
6
11
18
12
乙班(人数)
4
8
13
15
10
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,并问是否有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
优秀人数
非优秀人数
合计
甲班
乙班
合计
解:
(1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为
=60%,
乙班优秀人数为25人,优秀率为
=50%
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 变量间的相关关系统计案例 高考 数学 一轮 复习 备考 变量 相关 关系 统计 案例 北师大