概率统计及统计案例真题分类突破.docx
- 文档编号:1350346
- 上传时间:2022-10-21
- 格式:DOCX
- 页数:37
- 大小:716.04KB
概率统计及统计案例真题分类突破.docx
《概率统计及统计案例真题分类突破.docx》由会员分享,可在线阅读,更多相关《概率统计及统计案例真题分类突破.docx(37页珍藏版)》请在冰豆网上搜索。
概率统计及统计案例真题分类突破
第八章概率统计及统计案例
第一节随机抽样
一、高考考点梳理
(一)、简单随机抽样
1.定义:
设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫作简单随机抽样.
2.最常用的简单随机抽样的方法:
抽签法和随机数法.
3.应用范围:
总体中的个体数较少.
(二)、系统抽样
1.定义:
当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
2.系统抽样的操作步骤
第一步编号:
先将总体的N个个体编号;
第二步分段:
确定分段间隔k,对编号进行分段,当
(n是样本容量)是整数时,取k=
;
第三步确定首个个体:
在第1段用简单随机抽样确定第一个个体编号l(l≤k);
第四步获取样本:
按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
3.应用范围:
总体中的个体数较多.
(三)、分层抽样
1.定义:
在抽样时,将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本,这种抽样方法叫作分层抽样,有时也称为类型抽样.
2.应用范围:
当总体是由差异明显的若干类型组成时,往往选用分层抽样.
二、历年高考真题题型分类突破
题型一系统抽样
【例1】(2019全国Ⅰ卷)某学校为了解1000名新生的身体素质,将这些学生编号1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生B.200号学生C.616号学生D.815号学生
解析:
∵从1000名学生从中抽取一个容量为100的样本,
∴系统抽样的分段间隔为
=10,
∵46号学生被抽到,
则根据系统抽样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,
设其数列为{ɑn},则ɑn=6+10(n﹣1)=10n﹣4,
当n=62时,ɑ62=616,即在第62组抽到616号学生.故选C.
题型二分层抽样
【例2】(2018全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:
因为不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
题型三抽样数据的统计
【例3】(2019全国Ⅲ卷)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()
A.0.5B.0.6C.0.7D.0.8
解析:
设阅读过《西游记》或《红楼梦》的分别为事件A和事件B,则A或者B中有90人,B中有80人,A且B中有60人,所以A中有90-80+60=70人,则A的概率是0.7,故选C.
第二节用样本估计总体
一、高考考点梳理
(一)、用样本的频率分布估计总体分布
1.频率分布表与频率分布直方图
频率分布表与频率分布直方图的绘制步骤如下:
①求极差(即一组数据中最大值与最小值的差);
②定组距与组数;③将数据分组;④列频率分布表;
⑤画频率分布直方图.
2.频率折线图
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.
3.茎叶图
①茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
②对于样本数据较少,但较为集中的一组数据:
若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶,样本数据为小数时做类似处理.
(二)、用样本的数字特征估计总体的数字特征
1.众数
在一组数据中,出现次数最多的数据叫作这组数据的众数.体现了样本数据的最大集中点,不受极端值的影响而且不唯一.
2.中位数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.它不受极端值的影响,仅利用了排在中间数据的信息,只有一个,且在频率分布直方图中,中位数左边和右边的直方图的面积相等.
3.平均数:
样本数据的算术平均数,即
=
(x1+x2+…+xn),它与每一个样本数据有关,仅有一个.
4.极差:
一组数值中最大值与最小值的差,它反映一组数据的波动情况,但极差只考虑两个极端值,可靠性极差.
5.标准差:
①考查样本数据的分散程度的大小,最常用的统计量是标准差,标准差是样本数据到平均数的一种平均距离,一般用s表示:
s=
.
②标准差的平方s2叫作方差:
s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2].
二、历年高考真题题型分类突破
题型一频率分布直方图的绘制与应用
【例1】(2018全国Ⅰ卷)某家庭记录了未使用节水龙头50天的日用水量数据(单位:
m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)在答题卡上作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?
(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解析:
(1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
=
(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48
该家庭使用了节水龙头后50天日用水量的平均数为
=
(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
题型二茎叶图的应用
【例2】(2018全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:
min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?
并说明理由;
(2)求40名工人完成生产任务所需时间的中位数
,并将完成生产任务所需时间超过
和不超过
的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据
(2)中的列表,能否有99%的把握认为两种生产方式的效率有差异?
附:
K2=
,
临界值表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解析:
(1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:
用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:
用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:
用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:
用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m=
=80.
列联表如下:
超过80
不超过80
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2=
=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
题型三用样本的数字特征估计总体的数字特征
【例3】(2020全国Ⅰ卷)某厂接受了一项加工业务,加工出来的产品(单位:
件)按标准分为A,B,C,D四个等级.加工业务约定:
对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等级
A
B
C
D
频数
40
20
20
20
乙分厂产品等级的频数分布表
等级
A
B
C
D
频数
28
17
34
21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?
解析:
(1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为
;
乙分厂加工出来的一件产品为A级品的概率的估计值为
.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
利润
65
25
−5
−75
频数
40
20
20
20
因此甲分厂加工出来的100件产品的平均利润为
.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
利润
70
30
0
−70
频数
28
17
34
21
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 案例 分类 突破