版高考数学大一轮复习第十章统计与统计案例概率第3节变量间的相关关系与统计案docx.docx
- 文档编号:9783036
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:26
- 大小:137.78KB
版高考数学大一轮复习第十章统计与统计案例概率第3节变量间的相关关系与统计案docx.docx
《版高考数学大一轮复习第十章统计与统计案例概率第3节变量间的相关关系与统计案docx.docx》由会员分享,可在线阅读,更多相关《版高考数学大一轮复习第十章统计与统计案例概率第3节变量间的相关关系与统计案docx.docx(26页珍藏版)》请在冰豆网上搜索。
版高考数学大一轮复习第十章统计与统计案例概率第3节变量间的相关关系与统计案docx
第3节变量间的相关关系与统计案例
最新考纲1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;
2.
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只耍求2X2列联表)的基本思想、方法及其简单应用:
4.T解回归分析的基本思想、方法及其简单应用.
知识梳理
1•相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:
散点图;统计量有相关系数与相关指数.
(1)在散点图屮,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图屮点的分布从整体上看大致在_>直线附近,称两个变量具有线性相关关系.
2.线性回归方程
⑴最小二乘法:
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)
回归方程:
两个具有线性相关关系的变量的一组数据:
5,yi),(血%),…,(血,%),
方是回归方稈的斜率,臼是在y轴上的截距.
回归直线一定过样本点的中心?
).
3.回归分析
(1)定义:
对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:
对于一组具有线性相关关系的数据(孟,yj,匕2,必),…,Ixn,%),其中匕,功称为样本点的中心•
(3)相关系数
当厂〉0时,表明两个变量正相关;
当风0时,表明两个变量负赵.
厂的绝对值越接近于1,表明两个变量的线性相关性越强.
厂的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常I”大于理吋,认为两个变量有很强的线性相关性.
n
(4)相关指数:
#=上.其屮E(力一『A是残差平方和,其值越小,则#越
£(力一刃2I
2=1
大(接近1),模型的拟合效果越好.
4.独立性检验
(1)利用随机变量#来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:
列出的两个分类变量的频数表,称为列联表•假设有两个分类变量*和丫,它们的可能取值分别为屈和5,切,其样本频数列联表(2X2列联表)为
[常用结论与微点提醒]
1.求解回归方程的关键是确定回归系数b,应充分利用回归直线过样本中心点(2,?
).
2.根据斤的值nJ■以判断两个分类变量有关的可信程度,若於越大,则两分类变量有关的把
握越大.
3.根据回归方程计算的丿值,仅是一个预报值,不是真实发生的值.
诊断自测
1•思考辨析(在扌舌号内打“J”或“X”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()
(2)通过回归直线方程bx+以估计预报变量的取值和变化趋势.()
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检
验.()
(4)事件启卩关系越密切,则由观测数据计算得到的斤的观测值越大.()
答案⑴J
(2)V(3)X(4)V
2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得
数据如表:
X
6
8
10
12
y
2
3
5
6
则y对/的线性回归直线方程为()
A.y=2.3%—0.7B.y=2.3x+0.7
C.y=0.7x—2.3D.y=0.7%+2.3
解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y=0.7x—2.3.
答案C
3.两个变量y与/的回归模型中,分别选择了4个不同模型,它们的相关指数#如下,其中拟合效果最好的模型是()
A.模型1的相关指数#为0.98
B.模型2的相关指数#为0.80
C.模型3的相关指数#为0.50
I)•模型4的相关指数#为0.25
解析在两个变量y与x的冋归模型中,它们的相关指数用越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
答案A
4.(2015・全国II卷)根据下而给出的2004年至2013年我国二氧化硫年排放量(单位:
万吨)柱形图,以下结论不正确的是()
7(6(5(4(3(2(H(M9(
22222222—
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对
于B选项,由图知,rtl2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.
答案D
5.为了判断髙屮三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下
2X2列联表:
理科
文科
男
13
10
女
7
20
已知P(#M3・841)~0・05,024)~0・025.根据表中数据,得到#的观测值k=
50X23X27X20X307}-844-则认为选修文科与性别有关系出错的可能性为・
解析斤的观测值&~4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别Z间有关系”成立,并且这种判断出错的可能性约为5%.
答案5%
考点一相关关系的判断
【例1】
(1)己知变量/和y近似满足关系式y=—0・lx+l,变量y与z正相关•下列结论中正确的是()
A.
%与y正相关,x与z负相关
B.
D.月收入的中位数是16,
x与y有负线性相关关系
”与y正相关,才与?
正相关
C.%与y负相关,"与z负相关
D.x与y负相关,x与z正相关
(2)甲、乙、丙、丁四位同学各自对昇,〃两变量的线性相关性做试验,并用回归分析方法分别求得相关系数于与残差平方和刃如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现/L〃两变量有更强的线性相关性()解析
(1)由y=-0.U+1,知”与y负相关,即y随才的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与7负相关.
A.甲
B.乙
C.丙
D.T
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了〃两变量有更强的线性相关性.
答案
(1)C
(2)D
规律方法1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之I'可就有线性相关关系•若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当越趋近于1相关性越强.当残差平方和越小,相关指数#越大,相关性越强.若CO,则正相关;风0时,则负相关.
3.线性冋归直线方程中:
Q0时,正相关;时,负相关.
【训练1】
(1)某公司在2018年上半年的收入*单位:
万元)与月支Illy(单位:
万元)的统计资料如下表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入%
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,贝叽)
A.月收入的中位数是15,无与y有正线性相关关系
B.月收入的屮位数是17,/与y有负线性相关关系
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为
3(MX)
2500°
2(MX)°
15(X)•
1()(M)••
5(X)
0123456789[Ox
1"y是负相关关系;
2在该相关关系中,若用拟合时的相关指数为乩用y=必+刃拟合时的相关指数为血则用〉层
3y之间不能建立线性回归方程.
解析
(1)从统计图表中看出,月收入的中位数是*(15+17)=16,收入增加,则支出也增加,x与y正线性相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c】es拟合比用尸加+臼拟合效果要好,则用〉用,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
答案
(1)C⑵①②
考点二线性回归方程及应用
年销售命/I
【例2】(2015•全国I卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费班单位:
千元)对年销售量y(单位:
t)和年利润?
(单位:
千元)的影响,对近8年的年宣传费乩和年销售量7/(7=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
620
6(X)
5BO
560
544)
52()
5004&)
343638404244464850525456
年宣传费/千元
X
W
8
L(尢一
2=1
8
E(硏一訥2
/=1
8
工{x—x)•{y—
/=i
?
)
8
E(莎一炉)•(//—
7=1
?
)
46.6
563
6.8
289.8
1.6
1469
10&8
_|8表中Wi=y]Xi,Wi.
y/=i
⑴根据散点图判断,y=a+bx与y=c+<7\/I哪一个适宜作为年销售量y关于年宣传费x的
冋归方程类型(给出判断即可,不必说明理由)?
(2)根据
(1)的判断结果及表屮数据,建立y关于x的回归方程;
⑶已知这种产品的年利润z与从y的关系为z=0.2y-x根据⑵的结果回答下列问题:
1年宣传费/=49时,年销售量及年利润的预报值是多少?
2年宣传费/为何值时,年利润的预报值最大?
附:
对于一组数据仙,ri),仏,的),…,(如r„),其冋归直线v=a+pU的斜率和截
距的最小二乘估计分别为:
E(u—li}(Vj—r)
a=v—0u.
Pn
ECu-u)2
/=!
解
(1)由散点图可以判断,y=c+M适宜作为年销售量y关于年宣传费x的冋归方程类型.
⑵令心心,先建立y关于炉的线性回归方程,由于
E(w—if)•(v~y}
4—:
—半卡
E5i)2I"
/=i
c=y—dir=563—68X6.8=100.6,
所以y关于炉的线性回归方程为尸100.6+680,因此y关于才的回归方程为y=100.6+68y[x.
(3)①由
(2)知,当^=49吋,年销售量y的预报值
尸100.6+68屈=576.6,
年利润z的预报值z=576.6X0.2-49=66.32.
②根据
(2)的结果知,年利润z的预报值
z=0.2(100.6+68心)—x=—x+13.6心+20.12.
所以当&■=2=6.&即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
规律方法1.
(1)正确理解计算b,白的公式和准确的计算是求线性回归方程的关键.
(2)冋归直线方程y=bx+日必过样本点中心(2,?
).
2.
(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)本例中y与x不具有线性相关,先作变换,转化为y与〃具有线性相关,求;lip关于炉的线性冋归方程,然后进一步求解.
【训练2】(2018•口照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份X
2013
2014
2015
2016
2017
储蓄存款y(T•亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x~2012,得到下
表2:
时间代号t
1
2
3
4
5
Z
0
1
2
3
5
表2
(1)求?
关于Z的线性回归方程;
⑵通过⑴屮的方程,求出y关于X的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
n
Ex,yi—nx•y
(附:
对于线性回归方程y=bx+a,其中力=,a=~y—bx)
Ex—nx
2=1
55
解
(1)7=3,z=2.2,E6z/=45,1#=55,
/=1/=1
;45-5X3X2.2b=55-5X9=k2,
a=z—bt=2.2—3X1.2=—1.4,
所以z=l.2广一1.4.
(2)将t=x_2012,z=y—5,代入z=1.2L1.4,
得y—5=1.20—2012)-1.4,即y=l.2^-2410.&
(3)因为y=1.2X2022-2410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
考点三独立性检验
【例3】(2017•全国II卷)海水养殖场进行某水产品的新、I口网箱养殖方法的产量对比,
收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:
kg),其频率分布直方图如
下:
旧养殖法新养殖法
(1)记/表示事件“旧养殖法的箱产量低于50kg”,估计的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量〈50kg
箱产量$50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,対这两种养殖方法的优劣进行比较.
附:
P(K2^o)
0.050
0.010
0.001
化)
3.841
6.635
10.828
on〈ad—be)'
(臼+b)(c+d)(臼+c)(方+d)
解
(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)X5
=0.62,因此,事件力的概率估计值为0.62.
斤的观测值为k=
(2)根据箱产量的频率分布克方图得列联表:
箱产量〈50kg
箱产量$50kg
旧养殖法
62
38
新养殖法
34
66
200X(62X66-34X38)
100X100X96X104
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:
新养殖法的箱产量平均值(或中位数)在50kg到55kg
Z间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集屮程度较旧养殖法的箱产量分布集中程度高.因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于IH养殖法.
规律方法1.在2X2列联表中,如果两个变量没有关系,则应满足加一比~0.|加一处|越小,说明两个变量之间关系越弱;"d—方c|越大,说明两个变量之I'可关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
⑴根据样本数据制成2X2列联表:
⑵根据公式宀(卄0)(身驚常;(c+小计算於的观测值k;
(3)比较观测值&与临界值的大小关系,作统计推断.
【训练3](2018•合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选
修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:
从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2X2列联表.并判断能否在犯错误的概
率不超过0.025的前提下认为科类的选择与性别有关?
选择自然科学类
选择社会科学类
合计
男生
女生
合计
n〈ad—be)~
(臼+方)(c+R)(臼+c)(方+R)'其中刀=a+b+c+d-
)
0.50
0
0.40
0
0.250
0.150
0.100
0.050
0.025
0.010
0.005
0.001
Ab
0.45
5
0.70
8
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.82
8
解
(1)从高一年级学生中随机抽取1人,抽到男生的概率约为營=令.
(2)根据统计数据,可得2X2列联表如下:
选择自然科学类
选择社会科学类
合计
男生
60
45
105
女生
30
45
75
合计
90
90
180
则#的观测值为^18OX1O5X?
5X%X%45)-1429>&024,
所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.
分层训练,提升能力
課时作业
基础巩固题组
(建议用时:
40分钟)
一、选择题
1.为了判定两个分类变量*和厂是否有关系,应用独立性检验法算得斤的观测值为5,又已
知^>3.841)=0.05,^>6.635)=0.01,则下列说法正确的是()
A.有95%的把握认为“X和卩有关系”
B.有95%的把握认为“尤和/没有关系”
C.有99%的把握认为“/和卩有关系”
D.有99%的把握认为“才和厂没有关系”
解析依题意#的观测值为k=5,且"(#23.841)=0.05,因此有95%的把握认为“/和厂有关系.
答案A
2.(2018・石家庄模拟)下列说法错误的是()
A.回归直线过样本点的中心G,?
)
B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C.对分类变量/与X随机变量斤的观测值&越大,则判断“/与卩有关系”的把握程度越小
D.在回归直线方程尸0.2^+0.8中,当解释变量每增加1个单位时,预报变量歼均增加
0.2个单位
解析根据相关定义分析知A,B,D正确,C屮对分类变量*与卩的随机变量斤的观测值斤来说,&越大,判断叮与卩有关系”的把握程度越大,故C错误.
答案C
3.(2017•汉屮模拟)已知两个随机变量尢yZ间的相关关系如表所示:
X
-4
-2
1
2
4
y
—5
-3
-1
-0.5
1
根据上述数据得到的冋归方程为y=bx+^则大致可以判断()
B.QO,b<0
C•以0,方>0D.a<0,方〈0
解析作111散点图,画111回归直线直观判定力>0,曰〈0.
答案C
4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
“n{ad—be}-齐戸
由朮=(日+b)(c+d)(日+c)(方+d)算得,
/y*亠,110X(40X30-20X20)2口°A的犹决Mil为k=60X50X60X50=7・8-
附表:
0.050
0.010
0.001
Ab
3.841
6.635
10.828
参照附表,得到的正确结论是()
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前捉下,认为“爱好该项运动与性别无关”
解析根据独立性检验的定义,由斤的观测值为7.8>6.635,可知我们在犯错误的概率
不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”•
答案A
5.(2017•山东卷)为了研允某班学生的脚长班单位:
厘米)和身高y(单位:
厘米)的关系,
从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,
A•"1010A
设其回归直线方程为y=bx+a.已知刀尢=225,Ey/=1600,b=4•该班某学生的脚长为24,
据此估计其身髙为()
A.160
B.163
C.166
D.170
解析由己知得x=22.5,y=160,
T冋归直线方程过样本点中心(】,y),且b=4,
・•・160=4X22.5+日,解得日=70.
・'•回归直线方程为y=4x+70,当x=24时,y=166.
答案C
二、填空题
6.(2017•西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.
零件数班个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为.
解析由耳=30,得"=0.67X30+54.9=75.
设表中的“模糊数字”为曰,
则62+^+75+81+89=75X5,・••日=68.
答案68
7.(2018・赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校小按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答•选题情况如下表:
(单位:
人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据上述数据,推断视觉和空间想象能力与性别冇关系,则这种推断犯错误的概率不超过
附表:
/«#以)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
Ao
2.072
2.7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高考 数学 一轮 复习 第十 统计 案例 概率 变量 相关 关系 docx