第十章 102 用样本估计总体.docx
- 文档编号:5045724
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:25
- 大小:213.86KB
第十章 102 用样本估计总体.docx
《第十章 102 用样本估计总体.docx》由会员分享,可在线阅读,更多相关《第十章 102 用样本估计总体.docx(25页珍藏版)》请在冰豆网上搜索。
第十章102用样本估计总体
§10.2 用样本估计总体
考试要求
1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.2.会用数字特征估计总体集中趋势和总体离散程度.
1.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.平均数、中位数和众数
名称
概念
平均数
如果有n个数x1,x2,…,xn,那么
(x1+x2+…+xn)就是这组数据的平均数,用
表示,即
=
(x1+x2+…+xn).
中位数
将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数.
众数
一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数.
3.方差和标准差
假设一组数据是x1,x2,…,xn,用
表示这组数据的平均数,则我们称
(xi-
)2为这组数据的方差.有时为了计算方差的方便,我们还把方差写成
-
2的形式.
我们对方差开平方,取它的算术平方根
,称为这组数据的标准差.
4.总体(样本)方差和总体标准差
(1)一般式:
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为
,则总体方差S2=
(Yi-
)2.
(2)加权式:
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=
i(Yi-
)2.
总体标准差:
S=
.
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为
,则称s2=
(yi-
)2为样本方差,s=
为样本标准差.
微思考
1.类比总体方差的加权式,若给定的数据中,已知数据xi出现的频数为fi,且
i=n,怎样计算这些数据的平均数?
提示
=
i fi.
2.平均数、标准差与方差反映了数据的哪些特征?
提示 平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)对一组数据来说,平均数和中位数总是非常接近.( × )
(2)一组数据的第p百分位数可以不唯一.( √ )
(3)方差与标准差具有相同的单位.( × )
(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( √ )
题组二 教材改编
2.如图是60名学生参加数学竞赛的成绩(均为整数)的频率分布直方图,估计这次数学竞赛的及格率(大于等于60分为及格)是( )
A.75%B.25%C.15%D.40%
答案 A
解析 大于或等于60分的共四组,它们是[59.5,69.5),[69.5,79.5),[79.5,89.5),[89.5,99.5],
故样本中60分及以上的频率为(0.015+0.03+0.025+0.005)×10=0.75.
由此可估计这次数学竞赛的及格率为75%.
3.某射击小组有20人,教练将他们某次射击的数据绘制成如下表格,则这组数据的众数和中位数分别是( )
环数
5
6
7
8
9
10
人数
1
2
7
6
3
1
A.7,7B.8,7.5
C.7,7.5D.8,6
答案 C
解析 从表中数据可知7环有7人,人数最多,所以众数是7;
中位数是将数据从小到大排列,第10个与第11个数据的平均数,第10个数是7,第11个数是8,所以中位数是
=7.5.
4.一个容量为20的样本,其数据按从小到大的顺序排列为:
1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为________,第86百分位数为________.
答案 14.5 17
解析 ∵75%×20=15,
∴第75百分位数为
=14.5.
∵86%×20=17.2,
∴第86百分位数为第18个数据17.
题组三 易错自纠
5.(多选)下列说法中正确的为( )
A.数据的极差越小,样本数据分布越集中、稳定
B.数据的平均数越小,样本数据分布越集中、稳定
C.数据的标准差越小,样本数据分布越集中、稳定
D.数据的方差越小,样本数据分布越集中、稳定
答案 ACD
解析 由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故B不正确,ACD正确.
6.一组数据的平均数是28,方差是4,若将这组数据中的每一个数据都加上20,得到一组新数据,则所得新数据的平均数是________,方差是________.
答案 48 4
解析 设该组数据为x1,x2,…,xn,
则新数据为x1+20,x2+20,…,xn+20,记新数据的平均数为
′
因为
=
=28,
所以
′=
=20+28=48.
因为s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2],
所以s′2=
{[x1+20-(
+20)]2+[x2+20-(
+20)]2+…+[xn+20-(
+20)]2}=s2=4.
题型一总体取值规律和百分位数的估计
1.某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:
克)的频率分布直方图,样本数据分组为[76,78),[78,80),…,[84,86].若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个数是( )
A.12B.18C.25D.90
答案 D
解析 净重大于或等于78克且小于84克的频率为(0.100+0.150+0.125)×2=0.75,所以在该范围内的产品个数为120×0.75=90.
2.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20℃的月份有5个
答案 D
解析 由题意知,平均最高气温高于20℃的有六月、七月、八月,故选D.
3.某地农村2005年到2020年间人均居住面积的统计图如图所示,则增长最多的5年为( )
A.2005年~2010年
B.2010年~2015年
C.2015年~2020年
D.无法从图中看出
答案 C
解析 2005年~2010年的增长量为3.1,2010年~2015年的增长量为3.2,2015年~2020年的增长量为3.8,故增长最多的5年为2015年~2020年.
4.下表为12名毕业生的起始月薪:
毕业生
起始月薪
毕业生
起始月薪
1
2850
7
2890
2
2950
8
3130
3
3050
9
2940
4
2880
10
3325
5
2755
11
2920
6
2710
12
2880
根据表中所给的数据计算第85百分位数为________.
答案 3130
解析 将12个数据按从小到大排序:
2710,2755,2850,2880,2880,2890,2920,2940,2950,
3050,3130,3325.
因为i=12×85%=10.2,
所以所给数据的第85百分位数是第11个数据3130.
思维升华
(1)应用统计图表可以观察数据变化趋势,解题时要认真读图,获取图表中的数据比例,数字特征等相关信息.
(2)计算一组数据的第p百分位数的步骤
题型二总体集中趋势的估计
例1
(1)(2020·广西南宁市金伦中学期末)有两位射击运动员在一次射击测试中各射靶7次,每次命中的环数如下:
甲:
78109886
乙:
91078778
则下列判断正确的是( )
A.甲射击的平均成绩比乙好
B.乙射击的平均成绩比甲好
C.甲射击的成绩的众数小于乙射击的成绩的众数
D.甲射击的成绩的中位数等于乙射击的成绩的中位数
答案 D
解析 由题意得,甲射击的平均成绩为
甲=
=8,众数为8,中位数为8;乙射击的平均成绩为
乙=
=8,众数为7,中位数为8;故甲射击的平均成绩等于乙射击的平均成绩,甲射击的成绩的众数大于乙射击的成绩的众数,甲射击的成绩的中位数等于乙射击的成绩的中位数,故选D.
(2)(多选)(2020·郑州模拟)某校高二年级共有800名学生参加了数学测验(满分150分),已知这800名学生的数学成绩均不低于90分,将这800名学生的数学成绩分组为:
[90,100),[100,110),[110,120),[120,130),[130,140),[140,150),得到的频率分布直方图如图所示,则下列说法中正确的是( )
A.a=0.045
B.这800名学生中数学成绩在110分以下的人数为160
C.这800名学生数学成绩的中位数约为121.4
D.这800名学生数学成绩的平均数为125
答案 BC
解析 由题意(0.005+0.01+0.01+0.015+0.025+a)×10=1,解得a=0.035,A错误;110分以下的人数为(0.01+0.01)×10×800=160,B正确;
120分以下的频率是(0.01+0.01+0.025)×10=0.45,设中位数为x,则
=
,x≈121.4,C正确;
平均数为95×0.1+105×0.1+115×0.25+125×0.35+135×0.15+145×0.05=120,D错误.
思维升华
(1)众数、中位数、平均数的应用要点
中位数、众数分别反映了一组数据的“中等水平”“多数水平”,平均数反映了数据的平均水平,我们需根据实际需要选择使用.
(2)频率分布直方图的数字特征
①众数:
众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,最高小长方形的底边中点的横坐标;
②中位数:
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;
③平均数:
平均数在频率分布表中等于组中值与对应频率之积的和.
跟踪训练1 为了调查某厂工人生产某种产品的能力,随机抽查了20名工人某天生产该产品的数量得到频率分布直方图如图所示,则:
(1)这20名工人中一天生产该产品数量在[55,75)的人数是________;
(2)这20名工人中一天生产该产品数量的中位数为________;
(3)这20名工人中一天生产该产品数量的平均数为________.
答案
(1)13
(2)62.5 (3)64
解析
(1)在[55,75)的人数为(0.040×10+0.025×10)×20=13.
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,
解得x=62.5.
(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
题型三总体离散程度的估计
例2 (2019·全国Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80]
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:
≈8.602.
解
(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为
=0.21.
产值负增长的企业频率为
=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)
=
×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=
i(yi-
)2
=
×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.0296,
s=
=0.02×
≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
思维升华 标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度越大;标准差(方差)较小,数据的离散程度越小.
跟踪训练2 (多选)为了比较甲、乙两地某月14时的气温情况,随机抽取了该月中的5天,将这5天中14时的气温数据(单位:
℃)列表如下:
甲
26
28
31
29
31
乙
28
30
29
31
32
以下结论正确的是( )
A.甲地该月14时的平均气温低于乙地该月14时的平均气温
B.甲地该月14时的平均气温高于乙地该月14时的平均气温
C.甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差
D.甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差
答案 AD
解析 方法一 因为
甲=
=29,
乙=
=30,
所以
甲<
乙,
又s
=
=
,s
=
=2,
所以s甲>s乙,故可判断结论AD正确.
方法二 甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论AD正确.
课时精练
1.某鞋店试销一款新女鞋,销售情况如下表:
鞋号
34
35
36
37
38
39
40
41
数量/双
2
5
9
16
9
5
3
2
如果你是鞋店经理,那么下列统计量中对你来说最重要的是( )
A.平均数B.众数
C.中位数D.方差
答案 B
解析 鞋店经理最关心的是哪种鞋号的鞋销量最大,即数据的众数.
2.(2019·全国Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数B.平均数
C.方差D.极差
答案 A
解析 记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.
3.(2020·茂名联考)甲组数据为:
5,12,16,21,25,37,乙组数据为:
1,6,14,18,38,39,则甲、乙的平均数、极差及中位数相同的是( )
A.极差B.平均数
C.中位数D.都不相同
答案 B
解析 由题中数据的分布,可知极差不同,
甲的中位数为
=18.5,
乙的中位数为
=16,
甲=
=
,
乙=
=
,
所以甲、乙的平均数相同.
4.某样本中共有5个数据,其中四个值分别为0,1,2,3,第五个值丢失,已知该样本的平均数为1,则样本方差为( )
A.2B.
C.
D.
答案 A
解析 设丢失的数据为a,则这组数据的平均数是
×(a+0+1+2+3)=1,解得a=-1.
根据方差计算公式得s2=
×[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
5.(多选)下表为2020年某煤炭公司1~10月份的煤炭生产量:
月份
1
2
3
4
5
6
7
8
9
10
产量(单位:
万吨)
23
25
24
17.5
17.5
21
26
29
30
27
则下列结论正确的是( )
A.极差为12.5万吨
B.平均数为24万吨
C.中位数为24万吨
D.众数为17.5万吨
答案 ABD
解析 将表格中的数据由小到大排列依次为17.5,17.5,21,23,24,25,26,27,29,30.
极差为30-17.5=12.5(万吨),A正确;
平均数为
=24(万吨),B正确;
中位数为
=24.5(万吨),C错误;
众数为17.5(万吨),D正确.
6.(多选)(2020·江苏省南通市启东中学模拟)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[50,60)元的学生有60人,则下列说法正确的是( )
A.样本中支出在[50,60)元的频率为0.03
B.样本中支出不少于40元的人数为132
C.n的值为200
D.若该校有2000名学生,则一定有600人支出在[50,60)元
答案 BC
解析 样本中支出在[50,60)元的频率为1-(0.01+0.024+0.036)×10=0.3,故A错误;样本中支出不少于40元的人数为
×60+60=132,故B正确;
n=
=200,故n的值为200,故C正确;
若该校有2000名学生,则可能有0.3×2000=600人支出在[50,60)元,故D错误.
7.按从小到大排列的一组数据90,92,92,93,93,94,95,96,99,100的75%分位数为________,80%分位数为________.
答案 96 97.5
解析 10×75%=7.5,10×80%=8,
所以75%分位数为第8个数据96,
80%分位数为第8个、第9个数据的平均数,
即
=97.5.
8.(2020·江苏省苏州市高新区第一中学模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图是根据抽样检测后零件的质量(单位:
g)绘制的频率分布直方图,样本数据分为8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在第________组.
答案 四
解析 根据频率分布直方图可知,前三组的频率之和为(0.0375+0.0625+0.075)×2=0.35<0.5,
前四组的频率之和为(0.0375+0.0625+0.075+0.1)×2=0.55>0.5,
则可以判断中位数在第四组.
9.在样本的频率分布直方图中,共有8个小长方形,若最后一个小长方形的面积等于其他7个小长方形的面积和的
,且样本量为200,则第8组的频数为________.
答案 40
解析 设最后一个小长方形的面积为x,
则其他7个小长方形的面积为4x,
从而x+4x=1,所以x=0.2.
故第8组的频数为200×0.2=40.
10.将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图如图,则此班的模拟考试成绩的80%分位数是________.(结果保留两位小数)
答案 124.44
解析 由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.0225)×10×100%=92.5%,
因此,80%分位数一定位于[120,130)内.
因为120+
×10≈124.44,
所以此班的模拟考试成绩的80%分位数约为124.44.
11.一次数学知识竞赛中,两组学生的成绩如下:
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
经计算,两组的平均分都是80分,请根据所学过的统计知识,进一步判断这次竞赛中哪个组更优秀,并说明理由.
解 从不同的角度分析如下:
①甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数这一角度看,甲组成绩好些.
②s
=
×[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172.同理得s
=256.因为s
,所以甲组的成绩比乙组的成绩稳定.
③甲、乙两组成绩的中位数、平均数都是80分,其中甲组成绩在80分以上(含80分)的有33人,乙组成绩在80分以上(含80分)的有26人,从这一角度看,甲组成绩总体较好.
④从成绩统计表看,甲组成绩大于或等于90分的有20人,乙组成绩大于或等于90分的有24人,所以乙组成绩在高分段的人数多.同时,乙组满分比甲组多6人,从这一角度看,乙组成绩较好.
12.(2020·西安质检)某中学举行电脑知识竞赛,现将参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图.
(1)求参赛学生的成绩的众数、中位数;
(2)求参赛学生的平均成绩.
解
(1)因为频率分布直方图中最高小长方形所在的区间的中点值为65,所以众数为65,
又因为第一个小长方形的面积为0.3,
第二个小长方形的面积是0.4,0.3+0.4>0.5,所以中位数在第二组,
设中位数为x,则0.3+(x-60)×0.04=0.5,
解得x=65,
所以中位数为65.
(2)依题意,
可得平均成绩为(55×0.03+65×0.04+75×0.015+85×0.010+95×0.005)×10=67,
所以参赛学生的平均成绩为67分.
13.记样本x1,x2,…,xm的平均数为
,样本y1,y2,…,yn的平均数为
(
≠
).若样本x1,x2,…,xm,y1,y2,…,yn的平均数为
=
+
,则
的值为( )
A.3B.4C.
D.
答案 D
解析 由题意知x1+x2+…+xm=m
,
y1+y2+…+yn=n
,
=
=
=
+
=
+
,
所以
=
,
=
,可得3m=n,所以
=
.
14.气象意义上从春季进入夏季的标志为:
连续5天每天日平均温度不低于22℃.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数,单位:
℃).
①甲地:
5个数据的中位数为24,众数为22;
②乙地:
5个数据的中位数为27,平均数为24;
③丙地:
5个数据中有一个数据是32,平均数为26,方差为10.2.
则肯定进入夏季的地区有________个.
答案 2
解析 甲地肯定进入夏季,因为众数为22,所以22℃至少出现两次,若有一天低于22℃,则中位数不可能为24;丙地肯定进入,10.2×5-(32-26)2≥(26-x)2,所以15≥(26-x)2,所以x≤22不成立;乙地不一定进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十章 102 用样本估计总体 第十 样本 估计 总体