高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案.docx
- 文档编号:11331159
- 上传时间:2023-02-27
- 格式:DOCX
- 页数:25
- 大小:53.80KB
高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案.docx
《高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案.docx》由会员分享,可在线阅读,更多相关《高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案.docx(25页珍藏版)》请在冰豆网上搜索。
高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案
【2019最新】精选高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案
板块一 知识梳理·自主学习
[必备知识]
考点1 变量间的相关关系
1.常见的两变量之间的关系有两类:
一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
考点2 回归方程与回归分析
1.线性相关关系与回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:
求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定数.
3.回归分析
(1)定义:
对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:
在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,=(x1+…+xn),
=(y1+…+yn),=-,(,)称为样本点的中心.
(3)相关系数r=,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越强,当|r|≤1且|r|越接近于0,相关程度越弱.
考点3 独立性检验
1.独立性检验的有关概念
(1)分类变量
可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.
(2)2×2列联表
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.独立性检验
利用随机变量K2=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
步骤如下:
(1)计算随机变量K2的观测值k,查表确定临界值k0:
P(K2≥k0)
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(2)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
[必会结论]
1.相关关系与函数关系的异同
共同点:
二者都是指两个变量间的关系;
不同点:
函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.从散点图看相关性
正相关:
样本点分布在从左下角到右上角的区域内;
负相关:
样本点分布在从左上角到右下角的区域内.
3.回归直线=x+必过样本点的中心.
[考点自测]
1.判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案
(1)×
(2)√ (3)√ (4)×
2.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
22
25
47
合计
b
46
120
其中a,b处填的值分别为( )
A.94 72B.52 50C.52 74D.74 52
答案 C
解析 由a+21=73,得a=52,a+22=b,得b=74.故选C.
3.[课本改编]四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①②B.②③C.③④D.①④
答案 D
解析 正相关指的是y随x的增大而增大.负相关指的是y随x的增大而减小,故不正确的为①④,故选D.
4.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:
身高x(cm)
160
165
170
175
180
体重y(kg)
63
66
70
72
74
根据上表可得回归直线方程:
=0.56x+,据此模型预报身高为172cm的高三男生的体重为( )
A.70.09kgB.70.12kg
C.70.55kgD.71.05kg
答案 B
解析 ==170,
==69.∵回归直线过点(,),
∴将点(170,69)代入回归直线方程得=0.56x-26.2,代入x=172cm,则其体重为70.12kg.
5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得K2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).
答案 有关
解析 K2>10.828就有99.9%的理由认为两个量是有关的.
板块二 典例探究·考向突破
考向 线性回归分析
例 1 [2018·金华模拟]某百货公司1~6月份的销售量x与利润y的统计数据如下表:
月份
1
2
3
4
5
6
销售量x(万件)
10
11
13
12
8
6
利润y(万元)
22
25
29
26
16
12
(1)根据2至5月份的数据,求出y关于x的回归直线方程=x+;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?
参考公式:
=,=-.
解
(1)根据表中2至5月份的数据,
计算得=11,=24,
xiyi=11×25+13×29+12×26+8×16=1092,
x=112+132+122+82=498,
则=
==,
=-=24-×11=-.
故y关于x的回归直线方程为=x-.
(2)当x=10时,=×10-=,
此时<2;
当x=6时,=×6-=,此时<2.
故所得的回归直线方程是理想的.
触类旁通
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
【变式训练1】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:
时间
周一
周二
周三
周四
周五
车流量x(万辆)
100
102
108
114
116
PM2.5的浓度y(微克/立方米)
78
80
84
88
90
(1)根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+;
(2)若周六同一时间段车流量是200万辆,试根据
(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?
参考公式:
=,=-;参考数据:
xi=540,yi=420
解
(1)由条件可知,
=xi==108,=yi==84,
(xi-)(yi-)=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,
(xi-)2=(-8)2+(-6)2+02+62+82=200.
===0.72,
=-=84-0.72×108=6.24,
故y关于x的线性回归方程为=0.72x+6.24.
(2)当x=200时,=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.
考向 两个变量的相关性
命题角度1 相关关系的判断
例 2 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2 C.r4 答案 A 解析 易知题中图 (1)与图(3)是正相关,图 (2)与图(4)是负相关,且图 (1)与图 (2)中的样本点集中分布在一条直线附近,则r2 命题角度2 相关系数的意义 例 3 [2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 经计算得=i=9.97,s==≈0.212,≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16. (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小); (2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查? (ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附: 样本(xi,yi)(i=1,2,…,n)的相关系数r=.≈0.09. 解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数 r= ≈≈-0.18. 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为 (16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02. ≈16×0.2122+16×9.972≈1591.134, 剔除第13个数据,剩下数据的样本方差为 (1591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09. 考向 独立性检验 例 4 [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位: kg),其频率分布直方图如下: 旧养殖法 新养殖法 (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关; 箱产量<50kg 箱产量≥50kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). K2=. 解 (1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50kg的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表 箱产量<50kg 箱产量≥50kg 旧养殖法 62 38 新养殖法 34 66 K2=≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55kg的直方图面积为 (0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+≈52.35(kg). 触类旁通 利用统计量K2进行独立性检验的步骤 (1)根据数据列出2×2列联表; (2)根据公式计算K2找观测值k; (3)比较观测值k与临界值表中相应的检验水平,作出统计推断. 【变式训练2】 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名. (1)试问: 从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关? 选择自然科学类 选择社会科学类 合计 男生 女生 合计 附: K2=,其中n=a+b+c+d. P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=. (2)根据统计数据,可得2×2列联表如下: 选择自然科学类 选择社会科学类 合计 男生 60 45 105 女生 30 45 75 合计 90 90 180 ∴K2==≈5.1429>5.024. ∴在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关. 核心规律 1.求回归方程,关键在于正确求出系数,,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为,常数项为,这与一次函数的习惯表示不同.) 2.回归分析是处理变量相关关系的一种数学方法,主要解决: (1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 3.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际. 满分策略 1.相关关系与函数关系的区别 相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提. 2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值. 板块三 启智培优·破译高考 数学思想系列10———线性回归中的函数思想 [2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位: 千元)对年销售量y(单位: t)和年利润z(单位: 千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. (xi- )2 (wi- )2 (xi- )(yi- ) (wi- )(yi- ) 46.6 563 6.8 289.8 1.6 1469 108.8 表中wi=,=wi. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型? (给出判断即可,不必说明理由) (2)根据 (1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据 (2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附: 对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 =,=-. 解题视点 求解第 (1)问时,利用散点图结合学过的函数图象直接判断即可.求解第 (2)问时,根据题目提供的数据及公式求出相关量,就可写出回归方程.求解第(3)问中的第一小问时,把x=49直接代入回归方程求解出y的预报值,再代入年利润z与x,y的关系式求解即可;求解第二小问时,把y与x的关系式代入年利润z与x,y的关系式,将z转化为关于的二次函数求最值即可. 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程.由于 ===68, =-=563-68×6.8=100.6, 所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68. (3)①由 (2)知,当x=49时,年销售量y的预报值 =100.6+68=576.6, 年利润z的预报值 =576.6×0.2-49=66.32. ②根据 (2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 答题启示 利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为: 1将表中的各对数据在平面直角坐标系中描点,得到散点图;2按求回归方程的步骤和公式,写出回归方程;3利用回归方程进行分析,分析中注意函数思想的应用.()()() 跟踪训练 某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据: (1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程=x+; (2)在大量投入市场后,销量与单价仍服从 (1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)? 附: =,=-. 解 (1)五家4S店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78), ∴==18.5, ==79, ∴===-20. ∴=-=79-(-20)×18.5=79+370=449, ∴=-20x+449. (2)设该款汽车的单价应为x万元, 则利润f(x)=(x-12)(-20x+449) =-20x2+689x-5388, f′(x)=-40x+689,令-40x+689=0,解得x≈17.2, 故当x≈17.2时,f(x)取得最大值. ∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元. 板块四 模拟演练·提能增分 [A级 基础达标] 1.[2018·湖北模拟]已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案 C 解析 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++, 故x与z负相关. 2.[2018·桂林模拟]根据如下样本数据: x 3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0 得到的回归方程为=bx+a,则( ) A.a>0,b>0B.a>0,b<0 C.a<0,b>0D.a<0,b<0 答案 B 解析 由表中数据画出散点图,如图, 由散点图可知b<0,a>0. 3.通过随机询问200名性别不同的大学生是否爱好踢键子运动,计算得到统计量K2的观测值k≈4.892,参照附表,得到的正确结论是( ) P(K2≥k) 0.10 0.05 0.025 k 2.706 3.841 5.024 A.有97.5%以上的把握认为“爱好该项运动与性别有关” B.有97.5%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” 答案 C 解析 因为K2的观测值k≈4.892>3.841,所以有95%以上的把握认为“爱好该项运动与性别有关”. 4.[2018·洛阳模拟]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=bx+a近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( ) A.线性相关关系较强,b的值为1.25 B.线性相关关系较强,b的值为0.83 C.线性相关关系较强,b的值为-0.87 D.线性相关关系较弱,无研究价值 答案 B 解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B. 5.某产品的广告费用x(单位: 万元)与销售额y(单位: 万元)的统计数据如下表: 广告费用x 4 2 3 5 销售额y 49 26 39 54
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高考 数学 一轮 复习 统计 案例 变量 相关 关系