高考数学一轮复习第十五单元统计与统计案例学案文.docx
- 文档编号:24264223
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:34
- 大小:67.41KB
高考数学一轮复习第十五单元统计与统计案例学案文.docx
《高考数学一轮复习第十五单元统计与统计案例学案文.docx》由会员分享,可在线阅读,更多相关《高考数学一轮复习第十五单元统计与统计案例学案文.docx(34页珍藏版)》请在冰豆网上搜索。
高考数学一轮复习第十五单元统计与统计案例学案文
【2019最新】精选高考数学一轮复习第十五单元统计与统计案例学案文
教材复习课“统计与统计案例”相关基础知识一课过
三种抽样方法
[过双基]
三种抽样方法
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等
从总体中逐个抽取
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则,在各部分抽取
在起始部分抽样时,采用简单随机抽样
总体中的个数比较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时,采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2 C.p1=p3 解析: 选D 根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3. 2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( ) A.10B.11 C.12D.16 解析: 选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16. 3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为( ) A.10B.12 C.18D.24 解析: 选A 根据分层抽样的特征,从C学校中应抽取的人数为×60=10. [清易错] 1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列. 2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即. 1.从2018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取: 先用简单随机抽样法从2018名学生中剔除18名学生,剩下的2000名学生再按系统抽样的方法抽取,则每名学生入选的概率( ) A.不全相等B.均不相等 C.都相等,且为D.都相等,且为 解析: 选C 从N个个体中抽取M个个体,则每个个体被抽到的概率都等于. 2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( ) A.27B.30 C.33D.36 解析: 选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×=30. 频率分布直方图和茎叶图 [过双基] 1.作频率分布直方图的步骤 (1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图. 2.频率分布折线图和总体密度曲线 (1)频率分布折线图: 连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. (2)总体密度曲线: 随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. 3.茎叶图的优点 茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便. 1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的,且样本容量为80,则中间一组的频数为( ) A.0.25B.0.5 C.20D.16 解析: 选D 设中间一组的频数为x, 依题意有=,解得x=16. 2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A.86B.87 C.87.5D.88.5 解析: 选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为=86. [清易错] 1.易把直方图与条形图混淆 两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的. 2.易忽视频率分布直方图中纵轴表示的应为. 3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义. 1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是: [50,60),[60,70),[70,80),[80,90),[90,100],则图中a的值为 ( ) A.0.006B.0.005 C.0.0045D.0.0025 解析: 选B 由题意知,a==0.005,故选B. 2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=________. 解析: 由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以=33, 解得n=8,所以=. 答案: 样本的数字特征 [过双基] 1.众数、中位数、平均数 数字特征 定义与求法 优点与缺点 众数 一组数据中重复出现次数最多的数 众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征 中位数 把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数) 中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点 平均数 如果有n个数据x1,x2,…,xn,那么这n个数的平均数 = 平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低 2.标准差、方差 (1)标准差: 样本数据到平均数的一种平均距离,一般用s表示,s=. (2)方差: 标准差的平方s2 s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数. 1.对于一组数据xi(i=1,2,3,…,n),如果将它们改变为xi+C(i=1,2,3,…,n),其中C≠0,则下列结论正确的是( ) A.平均数与方差均不变 B.平均数变,方差保持不变 C.平均数不变,方差变D.平均数与方差均发生变化 解析: 选B 依题意,记原数据的平均数为,方差为s2, 则新数据的平均数为=+C,即新数据的平均数改变;新数据的方差为[(x1+C)-(+C)]2+[(x2+C)-(+C)]2+…+[(xn+C)-(+C)]2=s2,即新数据的方差不变. 2.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为( ) A.B. C.D.2 解析: 选D 依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2. 3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则a,b,c的大小关系为( ) A.a>b>c B.b>c>a C.c>a>bD.c>b>a 解析: 选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a<15,b=15,c=17,c>b>a. 4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表: 学生 1号 2号 3号 4号 5号 甲班 6 7 7 8 7 乙班 6 7 6 7 9 若以上两组数据的方差中较小的一个为s2,则s2=________. 解析: 由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s2=(1+0+0+1+0)=. 答案: 变量间的相关关系、统计案例 [过双基] 1.变量间的相关关系 (1)常见的两变量之间的关系有两类: 一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程为=x+,其中=,=-. (3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法. (4)相关系数: 当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d K2=(其中n=a+b+c+d为样本容量). 1.如图是根据x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,可以判断变量x,y具有线性相关关系的图是( ) A.①②B.①④ C.②③D.③④ 解析: 选D 若变量x,y具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D. 2.已知变量x,y取值如表所示: x 0 1 4 5 6 y 1.3 m 3m 5.6 7.4 画散点图分析可知: y与x线性相关,且求得回归方程为=x+1,则m的值(精确到0.1)为( ) A.1.5B.1.6 C.1.7D.1.8 解析: 选C 由题意知,=3.2代入回归方程=x+1可得=4.2,则4m=4.2×5-(1.3+5.6+7.4)=6.7,解得m=1.675,则精确到0.1后m的值为1.7. 3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表: 理科 文科 男 13 10 女 7 20 已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________. 解析: K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%. 答案: 5% [清易错] 1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上. 设某大学的女生体重y(单位: kg)与身高x(单位: cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该大学某女生身高增加1cm,则其体重约增加0.85kg D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg 解析: 选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1cm,其体重约增加0.85kg,故C正确.当某女生的身高为170cm时,其体重估计值是58.79kg,而不是具体值,因此D不正确. 一、选择题 1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=( ) A.660 B.720 C.780D.800 解析: 选B 由已知条件,抽样比为=, 从而=,解得n=720. 2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能为( ) A.=0.4x+2.3B.=2x-2.4 C.=-2x+9.5D.=-0.3x+4.4 解析: 选A 依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A、B,知A正确. 3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( ) A.480B.481 C.482D.483 解析: 选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482. 4.根据如下样本数据: x 2 3 4 5 6 7 y 4.1 2.5 -0.5 0.5 -2.0 -3.0 得到的回归方程为=x+,则( ) A.>0,>0B.>0,<0 C.<0,>0D.<0,<0 解析: 选B 根据样本数据画出散点图(图略),可知<0,>0. 5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( ) A.84,4.84B.84,1.6 C.85,1.6D.85,4 解析: 选C 依题意,所剩数据的平均数是80+×(4×3+6+7)=85,所剩数据的方差是×[3×(84-85)2+(86-85)2+(87-85)2]=1.6. 6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50km/h的汽车的辆数为( ) A.56B.61 C.70D.77 解析: 选D 由图知,时速超过50km/h的汽车的频率为(0.039+0.028+0.010)×10=0.77, 所以时速超过50km/h的汽车的辆数为100×0.77=77. 7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表. 非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 由K2=, 得K2=≈9.616. 参照下表, P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 下列说法中,正确的结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” 解析: 选C ∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”. 8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( ) A.甲<乙,m甲>m乙B.甲<乙,m甲 C.甲>乙,m甲>m乙D.甲>乙,m甲 解析: 选A 由题意得甲=≈24.3, 乙=≈24.4, 即甲<乙; 又m甲==23.5,m乙=23, 即m甲>m乙,故选A. 二、填空题 9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________. 解析: 间隔数k==16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7. 答案: 7 10.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表): 零件数x/个 10 20 30 40 50 加工时间y/分钟 62 68 75 81 89 由最小二乘法求得回归直线方程=0.67x+,则的值为________. 解析: ∵=×(10+20+30+40+50)=30, =×(62+68+75+81+89)=75, 回归直线方程=0.67x+过样本中心点(,), ∴=75-0.67×30=54.9. 答案: 54.9 11.已知甲、乙、丙三类产品共有1200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________. 解析: 由题意可知,乙类产品抽取的件数为 60×=20. 答案: 20 12.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0: “这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%. 解析: K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆. 答案: ① 三、解答题 13.某地区2011年至2017年农村居民家庭人均纯收入y(单位: 千元)的数据如表: 年份 2011 2012 2013 2014 2015 2016 2017 年份代号x 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (1)求y关于x的线性回归方程; (2)利用 (1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入. 附: 回归直线的斜率和截距的最小二乘法估计公式分别为: =,=-(其中,为样本平均值). 解: (1)由题意,得=×(1+2+3+4+5+6+7)=4, =×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, (xi-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14, (xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28, 所以==0.5, =-=4.3-0.5×4=2.3, 所以y关于x的线性回归方程为=0.5x+2.3. (2)因为=0.5>0, 所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元, 因为2019的年份代号是x=9,所以代入 (1)中的回归方程,可得=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元. 14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组: [30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人. (1)求m的值及中位数n; (2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间? 解: (1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06, 则m×(0.02+0.02+0.06)=20,解得m=200. 由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5. (2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为pi和xi,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由xi=200×pi,可得 x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20, 故该校学生测试平均成绩是 =×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5, 所以学校应该适当增加体育活动时间. 高考研究课一 随机抽样 [全国卷5年命题分析] 考点 考查频度 考查角度 系统抽样 未考查 分层抽样 5年1考 抽样方法的选择 系统抽样 [典例] 将参加夏令营的600名学生编号为: 001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为( ) A.26,16,8 B.25,17,8 C.25,16,9D.24,17,9 [解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤,因此A营区被抽中的人数是2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高考 数学 一轮 复习 第十五 单元 统计 案例 学案文