高届文科数学一轮复习课件金太阳新考案第十四单元概率与统计144相关关系与统计案例.docx
- 文档编号:1830355
- 上传时间:2022-10-24
- 格式:DOCX
- 页数:19
- 大小:328.36KB
高届文科数学一轮复习课件金太阳新考案第十四单元概率与统计144相关关系与统计案例.docx
《高届文科数学一轮复习课件金太阳新考案第十四单元概率与统计144相关关系与统计案例.docx》由会员分享,可在线阅读,更多相关《高届文科数学一轮复习课件金太阳新考案第十四单元概率与统计144相关关系与统计案例.docx(19页珍藏版)》请在冰豆网上搜索。
高届文科数学一轮复习课件金太阳新考案第十四单元概率与统计144相关关系与统计案例
§14.4 相关关系与统计案例
一
相关关系与回归分析
1.利用散点图判断相关性
(1)在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为负相关.
(3)如果散点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有线性相关关系.
2.利用相关系数判断相关性
当r>0时,表明两个变量 ;当r<0时,表明两个变量 .r的绝对值越接近于1,表明两个变量的线性相关性 ;r的绝对值越接近于0,表明两个变量之间 .通常|r|大于 时,认为两个变量有很强的线性相关关系.
3.线性回归方程(回归直线方程)
(1)最小二乘法:
使得样本数据的点到回归直线的 最小的方法叫作最小二乘法.
(2)回归方程:
两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,
则==,=.其中,是回归方程的 ,是在y轴上的截距.
回归直线一定过样本点的中心 .
4.残差分析
相关指数:
R2= .其中(yi-)2是残差平方和,其值越小,则R2 ,模型的拟合效果越好.
二
独立性检验
1.利用随机变量K2来判断“两个分类变量 ”的方法称为独立性检验.
2.列联表:
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
x2
c
d
c+d
总计
a+c
a+b+c+d
则随机变量K2= ,其中n= 为样本容量.
可利用独立性检验的临界值表来判断“X与Y有关系”的可信度.
在线反馈
一、1.
(1)左下角 右上角
(2)左上角 右下角
(3)一条直线
2.正相关 负相关 越强 几乎不存在线性相关关系 0.75
3.
(1)距离的平方和
(2)斜率 (,)
4.1- 越大(接近1)
二、1.有关系
2.a+b b+d a+b+c+d
1根据如下样本数据:
x
2
3
4
5
6
7
y
4.1
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则( ).
A.>0,>0B.>0,<0
C.<0,>0D.<0,<0
【试题解析】根据样本数据画出散点图(图略),可知<0,>0.
【参考答案】B
2某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
根据上表可得回归直线方程=x+中的=10.6,据此模型预测该产品的广告费用为10万元时销售额为( ).
A.112.1万元 B.113.1万元
C.111.9万元D.113.9万元
【试题解析】由题意知==3.5,==43.将(,)代入=10.6x+中,得43=10.6×3.5+,解得=5.9,所以=10.6x+5.9,当x=10时,=111.9.
【参考答案】C
3某班主任对全班30名男生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
12
8
20
不喜欢玩电脑游戏
2
8
10
总计
14
16
30
该班主任据此推断“男生认为作业多与喜欢玩电脑游戏有关系”,则这种推断犯错误的概率不超过 .
附表及公式:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
K2=.
【试题解析】计算得K2的观测值k=≈4.286>3.841,则这种推断犯错误的概率不超过0.05.
【参考答案】0.05
4某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为 .
【试题解析】由=30,得=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
【参考答案】68
题型一
线性回归方程及其应用
【例1】(2016年全国Ⅲ卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:
亿吨)的折线图.
注:
年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:
yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:
相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=.
【试题解析】
(1)由折线图中的数据和附注中的参考数据得,
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
故r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及
(1)得
==≈0.103.
=≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
解决线性回归方程问题时:
(1)正确理解关于,的公式和准确计算,是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
【追踪训练1】某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离)测试.测试的方案:
电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的停车距离.无酒状态与酒后状态下的试验数据分别列于表1和表2.
表1:
无酒状态
停车距离d(米)
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
频数
26
m
n
8
2
表2:
酒后状态
平均每毫升血液
酒精含量x(毫克)
10
30
50
70
90
平均停车距离y(米)
30
50
60
70
90
已知表1数据的中位数估计值为26,回答以下问题.
(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数.
(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+.
(3)该测试团队认为:
驾驶员酒后驾车的“平均停车距离”y大于
(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据
(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”.
附:
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为
=,=.
【试题解析】
(1)依题意,得m=50-26,解得m=40.又m+n+36=100,解得n=24.
故驾驶员无酒状态下停车距离的平均数为15×+25×+35×+45×+55×=27.
(2)依题意,可知=×(10+30+50+70+90)=50,
=×(30+50+60+70+90)=60,
xiyi=10×30+30×50+50×60+70×70+90×90=17800,
=102+302+502+702+902=16500,
所以==0.7,=60-0.7×50=25,
所以回归直线方程为=0.7x+25.
(3)由
(1)知,当y>27×3=81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,
故当每毫升血液酒精含量大于80毫克时认定为“醉驾”.
题型二
独立性检验及其应用
【例2】某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图.
(1)根据上图,估计乙流水线生产的这种产品的该项质量指标值的中位数.
(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件?
(3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关.
甲流水线
乙流水线
合计
合格品
不合格品
合计
附:
K2=(其中n=a+b+c+d).
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【试题解析】
(1)设该中位数为x,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86,所以中位数落在(205,210]内,
所以(0.012+0.032+0.052)×5+0.076×(x-205)=0.5,解得x=.
故乙流水线生产的这种产品的该项质量指标值的中位数为.
(2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为=,
乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=.
所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品的件数约为5000×=1500,5000×=1000.
(3)2×2列联表:
甲流水线
乙流水线
合计
合格品
35
40
75
不合格品
15
10
25
合计
50
50
100
则K2的观测值k==≈1.3.因为1.3<2.072,
所以没有85%的把握认为该企业生产的这种产品的该项质
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文科 数学 一轮 复习 课件 金太阳 新考案 第十四 单元 概率 统计 144 相关 关系 案例