微专题14 统计与统计案例.docx
- 文档编号:12638794
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:18
- 大小:558.29KB
微专题14 统计与统计案例.docx
《微专题14 统计与统计案例.docx》由会员分享,可在线阅读,更多相关《微专题14 统计与统计案例.docx(18页珍藏版)》请在冰豆网上搜索。
微专题14统计与统计案例
14 统计与统计案例
1.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用系统抽样方法,则所选取5枚导弹的编号可能是( ).
A.5,10,15,20,25B.3,13,23,33,43
C.1,2,3,4,5D.2,4,6,16,32
解析▶ 间隔距离为10,故可能的编号是3,13,23,33,43,故选B.
答案▶ B
2.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( ).
A.91.5和91.5B.91.5和92
C.91和91.5D.92和92
解析▶ ∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.
答案▶ A
3.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取的男生人数为 .
解析▶ 因为男生与女生的比例为180∶120=3∶2,所以应该抽取的男生人数为50×=30.
答案▶ 30
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为 .
解析▶ 由=30,得=0.67×30+54.9=75.
设表中的模糊数字为a,
则62+a+75+81+89=75×5,∴a=68.
答案▶ 68
能力1
▶ 随机抽样的应用
【例1】
(1)在一次马拉松比赛中,35名运动员的成绩(单位:
分钟)的茎叶图如图所示:
若将运动员按成绩由好到差编号为1~35,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ).
A.3 B.4 C.5 D.6
(2)我国古代数学专著《九章算术》中有一衰分问题:
今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( ).
A.104人B.108人C.112人D.120人
解析▶
(1)由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]内的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.
(2)由题意可知,这是一个分层抽样的问题,其中北乡可抽取的人数为300×=300×=108,故选B.
答案▶
(1)B
(2)B
1.
(1)系统抽样适用的条件是总体容量较大,样本容量也较大.
(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.
2.分层抽样问题类型及解题思路
(1)求某层应抽的个体数量:
按该层所占总体的比例计算.
(2)已知某层个体数量求总体容量或反之:
根据分层抽样就是按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:
分层抽样适用于总体中个体差异较大的情况.
1.将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,则三个营区被抽中的人数依次为( ).
A.26,16,8B.25,17,8
C.25,16,9D.24,17,9
解析▶ 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(kN∈*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k-1)≤495,得 答案▶ B 2.某校为了了解学生学习的情况,采用分层抽样的方法从高一1000人,高二1200人,高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n等于( ). A.860B.720 C.1020D.1040 解析▶ 分层抽样是按比例抽样的,所以81×=30,解得n=1040,故选D. 答案▶ D 能力2 ▶ 用样本数据估计总体的应用 【例2】 为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用如图所示的茎叶图表示.据此可估计该校上学期400名教师中,使用多媒体进行教学次数在[16,30)内的人数为( ). A.100B.160C.200D.280 解析▶ 观察茎叶图,抽取的20名教师中,上学期使用多媒体教学次数在[16,30)内的有8人,所以该区间段的频率为=0.4,因此全校400名教师中,上学期使用多媒体教学次数在[16,30)内的有400×0.4=160人,故选B. 答案▶ B 【例3】 我国是世界上严重缺水的国家之一,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位: 吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图. (1)求直方图中a的值; (2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由; (3)估计居民月均用水量的中位数. 解析▶ (1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04. 同理,月均用水量在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]的频率分别为0.08,0.21,0.25,0.06,0.04,0.02. 由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30. (2)估计全市居民中月均用水量不低于3吨的人数为3.6万.理由如下: 由 (1)知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.12=36000. (3)设中位数为x吨. 因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5. 而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5. 由0.50×(x-2)=0.5-0.48,解得x=2.04. 故可估计居民月均用水量的中位数为2.04吨. 1.茎叶图的优缺点: 由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐. 2. (1)准确理解频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆. (2)在很多题目中,频率分布直方图各小长方形的面积之和为1,是解题的关键,常利用样本的频率分布直方图估计总体分布. 1.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位: kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图所示的是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( ). A.6B.8C.12D.18 解析▶ 志愿者的总人数为=50,所以第三组的人数为50×0.36=18,有疗效的人数为18-6=12,故选C. 答案▶ C 2.某电子商务公司对10000名网络购物者2017年度的消费情况进行统计,发现消费金额(单位: 万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示: (1)直方图中的a= ; (2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 . 解析▶ (1)由频率分布直方图, 可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3. (2)消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6, 所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000. 答案▶ (1)3 (2)6000 能力3 ▶ 线性回归分析 【例4】 某地最近十年粮食需求量逐年上升,下表是部分统计数据: 年份 2008 2010 2012 2014 2016 需求量/万吨 236 246 257 276 286 (1)利用所给数据求年需求量y与年份x之间的线性回归方程=x+; (2)利用 (1)中所求出的线性回归方程预测该地2020年的粮食需求量. 附: 回归直线的斜率和截距的最小二乘估计公式分别为=,=-. 解析▶ (1)先将数据处理如下表: 年份-2012 -4 -2 0 2 4 需求量-257 -21 -11 0 19 29 对处理的数据,容易算得-2012=0,-257=3.2, ===6.5, =(-257)-(-2012)=3.2. 由上述计算结果,知所求线性回归方程为 -257=6.5(x-2012)+3.2, 即=6.5(x-2012)+260.2. (2)利用所求得的线性回归方程,可预测2020年的粮食需求量大约为6.5×(2020-2012)+260.2=6.5×8+260.2=312.2(万吨). 线性回归分析问题的类型及解题方法 (1)求线性回归方程 ①利用公式,求出回归系数. ②待定系数法: 利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数. (4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强. 某地区2011年至2017年农村居民家庭人均纯收入y(单位: 千元)的数据如下表: 年份 2011 2012 2013 2014 2015 2016 2017 年份代号t 1 2 3 4 5 6 7 人均纯收入y 3.9 4.3 4.6 5.4 5.8 6.2 6.9 (1)求y关于t的线性回归方程; (2)利用 (1)中的线性回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入. 附: 回归直线的斜率和截距的最小二乘估计公式分别为=,=-. 解析▶ (1)由所给数据计算得 =×(1+2+3+4+5+6+7)=4, =×(3.9+4.3+4.6+5.4+5.8+6.2+6.9)=5.3, (ti-)2=9+4+1+0+1+4+9=28, (ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, ===0.5, =-=5.3-0.5×4=3.3, 故所求线性回归方程为=0.5t+3.3. (2)由 (1)知,=0.5>0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2020年的年份代号t=10代入 (1)中的线性回归方程,得=0.5×10+3.3=8.3, 故预测该地区2020年农村居民家庭人均纯收入为8.3千元. 能力4 ▶ 独立性检验 【例5】 微信是现代生活中人们进行信息交流的重要方式,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,则使用微信的人中75%是青年人.若规定每天使用微信时间在一小时以上为经常使用微信,则经常使用微信的员工中有是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表: 青年人 中年人 合计 经常使用微信 不经常使用微信 合计 (2)根据2×2列联表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”. 附: K2=,n=a+b+c+d. P(K2≥k0) 0.010 0.001 k0 6.635 10.828 解析▶ (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×=80(人), 使用微信的人中,青年人有180×75%=135(人), 故2×2列联表如下: 青年人 中年人 合计 经常使用微信 80 40 120 不经常使用微信 55 5 60 合计 135 45 180 (2)将列联表中数据代入公式可得 K2的观测值k=≈13.333. 由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”. 1.比较两个分类变量有关联的可能性大小的方法: (1)通过计算K2的大小判断: K2越大,两变量有关联的可能性越大. (2)通过计算|ad-bc|的大小判断: |ad-bc|越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤: (1)根据样本数据制成2×2列联表. (2)根据公式K2=,n=a+b+c+d计算K2的观测值k. (3)比较k与临界值的大小关系,做统计推断. 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如表所示: 性别 是否需要志愿者 男 女 需要 40 30 不需要 160 270 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例. (2)能否有99%的把握认为“该地区的老年人是否需要志愿者提供帮助与性别有关”? (3)根据 (2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例? 说明理由. 附: P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 K2=,n=a+b+c+d. 解析▶ (1)调查的500位老年人中有70位需要志愿者提供帮助,所以该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为×100%=14%. (2)K2的观测值k=≈9.967. 因为9.967>6.635,所以有99%的把握认为“该地区的老年人是否需要帮助与性别有关”. (3)由 (2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再采用分层抽样方法进行抽样调查,比采用简单随机抽样方法更好. 一、选择题 1.某工厂平均每天生产某种机器零件10000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则在第三组中抽取的号码为( ). A.0210B.0410 C.0610D.0810 解析▶ 将零件分成50段,分段间隔为200,因此,在第三组中抽取的号码为0010+2×200=0410,故选B. 答案▶ B 2.某市2017年各月的平均气温(℃)数据的茎叶图如下: 则这组数据的中位数是( ). A.19B.20 C.21.5D.23 解析▶ 由茎叶图知所有的数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20,故选B. 答案▶ B 3.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n的值为( ). A.100B.150C.200D.250 解析▶ (法一)由题意可得=,解得n=100. (法二)由题意得抽样比为=,总体容量为3500+1500=5000,故n=5000×=100,故选A. 答案▶ A 4.下列说法错误的是( ). A.回归直线过样本点的中心(,) B.线性回归方程对应的直线=x+至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好 解析▶ 回归直线必过样本点的中心,A正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C正确;在回归分析中,R2越接近于1,拟合效果越好,D正确;线性回归方程对应的直线=x+一定经过样本点的中心(,),但不一定经过样本的数据点,所以B错误,故选B. 答案▶ B 5.在“青春校园歌手大赛”比赛现场上,七位评委为某选手打出的分数的茎叶图如图所示,则去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( ). A.85和6.8B.85和1.6 C.86和6.8D.86和1.6 解析▶ 剩余的数据为83,83,84,85,90, 平均分==85, 所以方差s2=×[(83-85)2+(83-85)2+(84-85)2+(85-85)2+(90-85)2]=6.8,故选A. 答案▶ A 6.已知x与y之间的几组数据如下表: x 1 2 3 4 5 6 y 0 2 1 3 3 4 假设根据上表数据所得的线性回归方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( ).
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 微专题14 统计与统计案例 专题 14 统计 案例