统计二轮复习教学案.docx
- 文档编号:24865657
- 上传时间:2023-06-02
- 格式:DOCX
- 页数:18
- 大小:136.07KB
统计二轮复习教学案.docx
《统计二轮复习教学案.docx》由会员分享,可在线阅读,更多相关《统计二轮复习教学案.docx(18页珍藏版)》请在冰豆网上搜索。
统计二轮复习教学案
统计学案
一.随机抽样
(一)总体、个体、样本
把所考察对象的某一数值指标的全体构成的集合看成总体,构成总体的每一个元素为个体.从总体中随机抽取若干个个体构成的集合叫做总体的一个样本.
(二)抽样方法
1.简单随机抽样
(1)定义:
设一个总体含有N个个体,从中不放回地抽取n个个体作为样本(n≤N),如果每次抽取时,总体的各个个体被抽到的机会都相等,称这种抽样方法为简单随机抽样.
(2)简单随机抽样的特点如下:
①它要求被抽取样本的总体中个体数有限.②它是从总体中逐个地进行抽取.
③它是一种不放回抽样.④它每一次抽取时,总体中的各个个体有相同的可能性被抽到.
(3)常用的简单随机抽样方法
①抽签法
先将总体中的所有N个个体编号,并把写在形状、大小相同的号签上,然后将这些号签放在同一个容器里,搅拌均匀.抽签时,每次从中抽出1个号签,连续抽取n次,就得到一个容量为n的样本.
抽签法的优点是简单易行.缺点是当总体的容量非常大时,费时、费力又不方便.况且,如果号签搅拌得不均匀,可能导致抽样的不公平.
②随机数表法
a.随机数表:
随机数表是由0,1,2,…,9这10个数字组成的数表,并且表中的每一位置出现各个数字的可能性相同.
b.用随机数表抽样的步骤:
第一步:
将总体中的个体编号.为了保证抽取样本有很好的代表性,编号时位数要相同.
第二步:
选定开始的数字.为了保证所选定数字的随机性,应在面对随机数表之前就指出开始数字的纵横位置.
第三步:
获取样本.随机确定一个读数方向,读数的方向可以向右,也可以向左、向上、向下等,重复的跳过.
2.系统抽样
(1)定义:
当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样.
(2)系统抽样的步骤:
①编号.采用随机的方式将总体中的个体编号.②分段.先确定分段的间隔k.当
(N为总体中的个体数,n为样本容量)是整数时,k=
;当
不是整数时,通过从总体中随机剔除一些个体使剩下的总体中个体总数N′能被n整除,这时k=
.③确定起始个体编号.在第1段用简单随机抽样确定起始的个体编号S.④按照事先确定的规则抽取样本.通常是将S加上间隔k,得到第2个个体编号S+k,再将(S+k)加上k,得到第3个个体编号S+2k,这样继续下去,获得容量为n的样本.其样本编号依次是:
S,S+k,S+2k,…,S+(n-1)k.
3.分层抽样
(1)定义:
当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本,这种抽样的方法叫做分层抽样.分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占比例抽取.分层抽样要求对总体的容有一定的了解,明确分层的界限和数目,分层要恰当.各层抽取时采用简单随机抽样或系统抽样.
(2)分层抽样的步骤
①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同);④汇合成样本.
(3)分层抽样的优点
分层抽样充分利用了己知信息,充分考虑了保持样本结构与总体结构的一致性.使样本具有较好的代表性,而且在各层抽样时,可以根据具体情况采取不同的抽样方法,因此分层抽样在实践中有着非常广泛的应用.
6.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用围
简单随机抽样
抽样过程中每个个体被抽取的机会均等
从总体中逐个抽取
总体中的个体数较少
系统抽样
将总体均匀分成几部分,按事先确定的规则在各部分抽取
在起始部分抽样时采用简单随机抽样
总体中的个体数较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
练1.(2010·文,14)某地有居民100000户,其中普通家庭99000户,高收入家庭1000户.从普遍家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取100户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是____________.
练2.将一个总体为100的个体编号为0,1,2,3…,99,并依次将其分为10个小组,组号为0,1,…,9,要用系统抽样的方法抽取一个容量为10的样本,规定如果在第0组(为0~9)随机抽取的为2,则所抽取的10个为.
练3.[2010年高考卷]将参加夏令营的600名学生编号为:
001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为()
A.26,16,8B.25,17,8C.25,16,9D.24,17,9
练4.一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图),为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在(2500,3000)(元)月收入段应抽出的人数为( )
A.25B.30
C.35D.40
二.用样本估计总体
1.编制频率分布直方图的步骤如下:
①求极差:
极差是一组数据的最大值与最小值的差.
②决定组距和组数:
当样本容量不超过100时,常分成5~12组.组距=
.
③将数据分组:
通常对组数值所在区间取左闭右开区间,最后一组取闭区间,也可以将样本数据多取一位小数分组;
④列频率分布表:
登记频数,计算频率,列出频率分布表.
将样本数据分成若干小组,每个小组的样本个数称作频数,频数与样本容量的比值叫做这一小组的频率.频率反映数据在每组所占比例的大小.
⑤绘制频率分布直方图:
把横轴分成若干段,每一段对应一个组距,然后以线段为底作一矩形,它的高等于该组的
,这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率.这些矩形就构成了频率分布直方图.
在频率分布直方图中,纵轴表示“频率/组距”,数据落在各小组的频率用小矩形的面积表示,各小矩形的面积总和等于1.
2.频率分布折线图
(1)把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图.
(2)总体密度曲线
如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线y=f(x)来描绘,这条光滑的曲线就叫总体密度曲线.
3.茎叶图:
统计中还有一种被用来表示数据的图叫做茎叶图.茎是指中间的一列数,叶是从茎的旁边生长出来的数.在样本数据较少、较为集中,且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示,但当样本数据较多时,茎叶图就不太方便.
4.平均数、中位数和众数
(1)平均数:
一组数据的总和除以数据的个数所得的商就是平均数.
(2)中位数:
如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数是这组数据的中位数;当数据有偶数个时,处在最中间两个数的平均数,是这组数据的中位数.
(3)众数:
出现次数最多的数(若有两个或几个数据出现得最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数).
(4)在频率分布直方图中,最高小长方形的中点所对应的数据值即为这组数据的众数.而在频率分布直方图上的中位数左右两侧的直方图面积应该相等,因而可以估计其近似值.平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
5.方差、标准差
设样本数据为x1,x2,…,xn样本平均数为
,则s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2]=
[(x12+x22+…+xn2)-n
2]叫做这组数据的方差,用来衡量这组数据的波动大小,一组数据方差越大,说明这组数据波动越大.把样本方差的算术平方根叫做这组数据的样本标准差.数据的离散程度可以通过极差、方差或标准差来描述,其中极差反映了一组数据变化的最大幅度.方差则反映一组数据围绕平均数波动的大小.
练5.(2011·)一组数据20,30,40,50,50,60,70,80的平均数、中位数、众数的大小关系是
A.平均数>中位数>众数B.平均数<中位数<众数
C.中位数<众数<平均数D.众数=中位数=平均数
练6.(2011·名校联考一)关于统计数据的分析,有以下几个结论:
①一组数不可能有两个众数;②将一组数据中的每个数据都减去同一个数后,方差没有变化;③调查剧院中观众观看感受时,从50排(每排人数相同)中任意抽取一排的人进行调查,属于分层抽样;④一组数据的方差一定是正数;⑤如图是随机抽取的200辆汽车通过某一段公路时的时速分布直方图,根据这个直方图,可以得到时速在[50,60)的汽车大约是60辆.则这5种说法中错误的个数是( )
A.2B.3C.4D.5
练7.(2010·文)在某项体育比赛中,七位裁判为一选手打出的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A.92,2B.92,2.8C.93,2D.93,2.8
练8.(2010·工大附中)某市共有5000名高三学生参加联考,为了了解这些学生对数学知识的掌握情况,现从中随机抽出若干名学生在这次测试中的数学成绩,制成如下频率分布表:
分组
频数
频率
[80,90)
①
②
[90,100)
0.050
[100,110)
0.200
[110,120)
36
0.300
[120,130)
0.275
[130,140)
12
③
[140,150]
0.050
合计
④
(1)根据上面的频率分布表,求①,②,③,④处的数值;
(2)在所给的坐标系中画出区间[80,150]上的频率分布直方图;
(3)从整体中任意抽取3个个体,成绩落在[105,120]中的个体数目为ξ,求ξ的分布列和数学期望.
练9.(2011·)某校高三
(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:
(1)求全班人数;
(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高;
(3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.
三.统计案例
(一)变量间的相关关系
(1)散点图直观反映了两变量的成对观察值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.
(2)最小二乘法求回归直线的方程:
设线性回归方程为
=
x+
.
其中,
是回归直线的斜率,
是截距.
注意:
回归直线一定经过样本的中心点(
,
),据此性质可以解决有关的计算问题.
3.回归分析
(1)相关系数①r=
,叫做相关系数.
(2)相关性检验的步骤
①作统计假设.假设x与y不具有线性相关关系.
②根据小概率0.05与n-2在附表中查出r的一个临界值r0.05;
③根据样本相关系数计算公式算出r的值;
④作统计推断.如果|r|>r0.05,表明有95%的把握认为x与y之间具有线性相关关系;如果|r|≤r0.05,则没有理由拒绝原来的假设.
(二)独立性检验
1.若变量的不同“值”表示个体所属的不同类别,则这些变量称为分类变量.
2.两个分类变量X与Y的频数表,称作2×2列联表.
y1
y2
合计
x1
n11
n12
n1+
x2
n21
n22
n2+
合计
n+1
n+2
n
在2×2列联表中,随机变量χ2=
,其中n为样本容量,χ2的取值围可以判断“X与Y有关系”的可信度,如表,用它的大小可以决定是否拒绝原来的统计假设H0如果算出的χ2值较大,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的.
3.两个临界值:
3.841与6.635
经过对χ2统计量分布的研究,已经得到了两个临界值:
3.841与6.635.当根据具体的数据算出的χ2>3.841时,有95%的把握说事件A与B有关;当χ2>6.635
时,有99%的把握说事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.
(其中频数n11、n12、n21、n22都不小于5)
P(χ2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
练10.(2011·理,7)某产品的广告费用x与销售额y的统计数据如下表
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程
=
x+
中的
为9.4,据此模型预报广告费用为6万元时销售额大约为( )
A.63.6万元B.65.5万元C.67.7万元D.72.0万元
练11.(2011·理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=
算得,K2=
≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
练12.(2011·理,13)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他子的身高为________cm.
练13.(2011·二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
60分以下
61~70分
71~80分
81~90分
91~100分
甲班(人数)
3
6
11
18
12
乙班(人数)
4
8
13
15
10
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
优秀人数
非优秀人数
合计
甲班
乙班
合计
参考公式及数据:
K2=
,
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
练14.为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:
mm2)
表1:
注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:
注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;
(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
疱疹面积小于70mm2
疱疹面积不小于70mm2
合计
注射药物A
a=
b=
注射药物B
c=
d=
合计
n=
附:
χ2=
P(χ2≥k)
0.100
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
练15.(2011·模拟)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:
先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程
=
x+
;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问
(2)中所得的线性回归方程是否可靠?
[解析]
(1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则
表示“选取的数据恰好是相邻2天的数据”.基本事件总数为10,事件
包含的基本事件数为4.
∴P(
)=
=
,
∴P(A)=1-P(
)=
.
(2)
=12,
=27,
iyi=977,
=434,
∴
=
=
=2.5,
=
-
=27-2.5×12=-3,
∴
=2.5x-3.
(3)由
(2)知:
当x=10时,y=22,误差不超过2颗;
当x=8时,y=17,误差不超过2颗.
故所求得的线性回归方程是可靠的.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 二轮 复习 教学
![提示](https://static.bdocx.com/images/bang_tan.gif)