专题五 第1讲 统计与统计案例Word文档格式.docx
- 文档编号:21386586
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:22
- 大小:206.79KB
专题五 第1讲 统计与统计案例Word文档格式.docx
《专题五 第1讲 统计与统计案例Word文档格式.docx》由会员分享,可在线阅读,更多相关《专题五 第1讲 统计与统计案例Word文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
易错提醒
(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.
(2)频率分布直方图中纵坐标不要误以为频率.
跟踪演练1
(1)(2020·
临沂模拟)已知8位学生的某次数学测试成绩的茎叶图如图,则下列说法正确的是( )
A.众数为7B.极差为19
C.中位数为64.5D.平均数为64
答案 C
解析 根据茎叶图中的数据知,这组数据的众数为67,A错误;
极差是75-57=18,B错误;
中位数是
=64.5,C正确;
平均数为60+
(-3-1+1+2+7+7+12+15)=65,D错误.
(2)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温不低于20℃的月份有5个
答案 D
解析 由题中雷达图易知A,C正确.七月份平均最高气温超过20℃,平均最低气温约为13℃;
一月份平均最高气温约为6℃,平均最低气温约为2℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20℃的月份为六、七、八月,有3个.
考点二 回归分析
在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(
,
),并且可通过线性回归方程估计预报变量的值.
例2 (2020·
全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:
公顷)和这种野生动物的数量,并计算得
i=60,
i=1200,
(xi-
)2=80,
(yi-
)2=9000,
)(yi-
)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:
相关系数r=
≈1.414.
解
(1)由已知得样本平均数
=
从而该地区这种野生动物数量的估计值为60×
200=12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=
≈0.94.
(3)分层抽样:
根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:
由
(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
规律方法 样本数据的相关系数
反映样本数据的相关程度,|r|越大,则相关性越强.
跟踪演练2
(1)已知某产品的销售额y与广告费用x之间的关系如下表:
x(单位:
万元)
1
2
3
4
y(单位:
15
30
35
若求得其线性回归方程为
=6.5x+
,则预计当广告费用为6万元时的销售额为( )
A.42万元B.45万元
C.48万元D.51万元
解析 由题意,根据上表中的数据,
可得
=2,
=22,
即样本点的中心为(2,22),
又线性回归方程
经过样本点的中心,
所以22=6.5×
2+
,解得
=9,
所以
=6.5x+9,当x=6时,
=48.
(2)(2020·
河北衡水中学月考)有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是( )
A.残差平方和变小
B.相关系数r变小
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变弱
解析 ∵从散点图可分析得出:
只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,
∴相关系数变大,相关指数变大,残差平方和变小,故选A.
考点三 独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×
2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
a+c
b+d
a+b+c+d
K2=
(其中n=a+b+c+d为样本容量).
例3 (2020·
宁夏六盘山高级中学模拟)为了调查一款手机的使用时间,研究人员对该款手机进行了相应的测试,将得到的数据统计如图所示:
并对不同年龄层的市民对这款手机的购买意愿作出调查,得到的数据如下表所示:
愿意购买
该款手机
不愿意购买
40岁以下
600
40岁以上
800
1000
1200
(1)根据图中的数据,试估计该款手机的平均使用时间;
(2)请将表格中的数据补充完整,并根据表中数据,判断是否有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.
参考公式:
,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解
(1)4×
0.05×
2+4×
0.09×
6+4×
0.07×
10+4×
0.03×
14+4×
0.01×
18=7.76,该款手机的平均使用时间为7.76年.
(2)
不愿意购买该款手机
400
200
2000
≈333.3>
10.828.
可知有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.
规律方法 独立性检验的关键
(1)根据2×
2列联表准确计算K2,若2×
2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.
跟踪演练3 随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线城市
一线城市
愿生
45
65
不愿生
13
58
42
100
附表:
由K2=
计算得,
K2的观测值k=
≈9.616,
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析 由题意知,
K2的观测值k≈9.616>
6.635,
∴有99%以上的把握认为“生育意愿与城市级别有关”.
专题强化练
一、选择题
1.某人5次上班途中所花的时间(单位:
分钟)分别为x,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x-y|的值为( )
A.4B.3C.2D.1
解析 依题意有
=10,(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2=5×
2,解得x=8,y=12或x=12,y=8,故|x-y|=4.
2.(2019·
全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5B.0.6C.0.7D.0.8
解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:
所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为
=0.7.
3.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:
mm)用茎叶图表示如图所示,则估计( )
A.甲、乙生产的零件尺寸的中位数相等
B.甲、乙生产的零件质量相当
C.甲生产的零件质量比乙生产的零件质量好
D.乙生产的零件质量比甲生产的零件质量好
解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;
乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是
=84.5,乙生产的零件尺寸的中位数是
=85,故A错误;
根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B,C错误.
4.(2020·
全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:
℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bxB.y=a+bx2
C.y=a+bexD.y=a+blnx
解析 由散点图可以看出,点大致分布在对数型函数的图象附近.
5.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×
2列联表,由计算可得K2≈8.806.
0.10
0.05
0.025
0.005
5.024
7.879
A.有99.5%以上的把握认为“爱好该项运动与性别无关”
B.有99.5%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”
答案 B
解析 由于计算得K2≈8.806>
7.879,根据独立性检验的知识可知有99.5%以上的把握认为“爱好该项运动与性别有关”.
6.为了研究某班学生的脚长x(单位:
cm)和身高y(单位:
cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为
x+
.已知
xi=225,
yi=1600,
=4.该班某学生的脚长为24cm,据此估计其身高为( )
A.160cmB.163cmC.166cmD.170cm
解析 ∵
xi=225,∴
xi=22.5.
∵
yi=1600,∴
yi=160.
又
=4,∴
=
-
=160-4×
22.5=70.
∴线性回归方程为
=4x+70.
将x=24代入上式,得
=4×
24+70=166.
7.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )
A.得分在[40,60)之间的共有40人
B.从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5
C.估计得分的众数为55
D.这100名参赛者得分的中位数为65
解析 根据频率和为1,计算(a+0.035+0.030+0.020+0.010)×
10=1,解得a=0.005,
得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×
0.4=40(人),A正确;
得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B正确;
根据频率分布直方图知,最高的小矩形对应的底边中点为
=55,即估计众数为55,C正确;
根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×
10=0.4<
0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×
10=0.7>
0.5,所以100名参赛者得分的中位数估计为60+
≈63.3,D错误.
8.(2020·
青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论错误的是( )
注:
90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.
A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上
B.互联网行业中从事技术岗位的人数超过总人数的20%
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业中从事技术岗位的人数90后比80后多
解析 选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×
(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A正确;
选项B,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×
39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B正确;
选项C,“90后”从事运营岗位的人数占总人数的比为56%×
17%≈9.5%,大于“80前”的总人数所占比3%,故选项C正确;
选项D,“90后”从事技术岗位的人数占总人数的56%×
39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D错误.
二、填空题
9.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)(单位:
t)范围内的居民有________人.
答案 25
解析 依题意知,月均用水量在[2,2.5)范围内的频率为0.50×
0.5=0.25,故所求居民人数为100×
0.25=25.
10.某赛季甲、乙两名篮球运动员每场比赛得分数据用茎叶图表示,如图所示,从茎叶图的分布情况看,________运动员的发挥更稳定.
答案 乙
解析 从茎叶图可以看出,乙的数据分布更加集中,所以乙运动员的发挥更稳定.
11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;
股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:
①股票甲在这一年中波动相对较小,表现的更加稳定;
②购买股票乙风险高但可能获得高回报;
③股票甲的走势相对平稳,股票乙的收盘价格波动较大;
④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)
答案 ①②③
解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;
甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;
通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;
通过折线图可得乙在6月到8月明显是下降趋势,故④错误.
12.设某大学的女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为
=0.85x-85.71,则下列结论中不正确的是________.(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(
);
③若该大学某女生身高增加1cm,则其体重约增加0.85kg;
④若该大学某女生身高为170cm,则可断定其体重必为58.79kg.
答案 ④
解析 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故①正确;
因为回归直线必过样本点的中心(
),所以②正确;
由线性回归方程的意义知,某女生的身高增加1cm,其体重约增加0.85kg,故③正确;
当某女生的身高为170cm时,其体重估计值是58.79kg,这不是确定值,因此④不正确.
三、解答题
13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图计算图中各小长方形的宽度;
(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);
(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:
广告投入x(单位:
销售收益y(单位:
7
表中的数据显示,x与y之间存在线性相关关系,请将
(2)中的结果填入空白栏,并计算y关于x的线性回归方程.
解
(1)设各小长方形的宽度为m,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·
m=0.5m=1,故m=2.
(2)由
(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,
故可估计平均值为1×
0.16+3×
0.20+5×
0.28+7×
0.24+9×
0.08+11×
0.04=5.
(3)空白栏中填5.由题意可知,
=3,
=3.8,
xiyi=1×
2+2×
3+3×
5+5×
7=69,
x
=12+22+32+42+52=55.
根据公式可求得
=1.2,
=3.8-1.2×
3=0.2,
即线性回归方程为
=1.2x+0.2.
14.(2020·
全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:
天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
16
2(良)
12
3(轻度污染)
6
8
4(中度污染)
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;
若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×
2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>
空气质量好
空气质量不好
解
(1)由频数分布表可知,该市一天的空气质量等级为1的概率为
=0.43,
等级为2的概率为
=0.27,
等级为3的概率为
=0.21,
等级为4的概率为
=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
=350.
(3)2×
2列联表如下:
33
37
70
空气质量不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 专题五 第1讲 统计与统计案例 专题 统计 案例