教案《用样本的数字特征估计总体》Word文件下载.docx
- 文档编号:20869795
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:14
- 大小:82.89KB
教案《用样本的数字特征估计总体》Word文件下载.docx
《教案《用样本的数字特征估计总体》Word文件下载.docx》由会员分享,可在线阅读,更多相关《教案《用样本的数字特征估计总体》Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。
(1)如何绘制频率分布直方图?
(3)如何从频率分布直方图中估计众数、中位数、平均数?
活动:
那么学生回忆初中所学的一些统计知识,思考后展开讨论,教师提示引导.
讨论结果:
(1)初中我们曾经学过众数(在一组数据中,出现次数最多的数称为众数)、中位数(在按大小顺序排列的一组数据中,居于中间的数称为中位数)、平均数(一般是一组数据和的算术平均数)等各种数字特征,应当说,这些数字都能够为我们提供关于样本数据的特征信息.
(2)画频率分布直方图的一般步骤为:
计算一组数据中最大值与最小值的差,即求极差;
决定组距与组数;
将数据分组;
列频率分布表;
画频率分布直方图.
(3)教材前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t(最高的矩形的中点),它告诉我们,该市的月均用水量为2.25t的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.
请大家翻回到课本看看原来抽样的数据,有没有2.25这个数值呢?
根据众数的定义,2.25怎么会是众数呢?
为什么?
(请大家思考作答)
分析:
这是因为样本数据的频率分布直方图把原始的一些数据给遗失了,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.
提问:
那么如何从频率分布直方图中估计中位数呢?
在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,矩形的面积大小正好表示频率的大小,即中位数左边和右边的直方图的面积应该相等.由此可以估计出中位数的值为2.02.
思考:
2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中的原因吗?
(原因同上:
样本数据的频率分布直方图把原始的一些数据给遗失了)
课本显示,大部分居民的月均用水量在中部(2.02t左右),但是也有少数居民的月均用水量特别高,显然,对这部分居民的用水量作出限制是非常合理的.
中位数不受少数几个极端值的影响,这在某些情况下是一个优点,但是它对极端值的不敏感有时也会成为缺点,你能举例说明吗?
(让学生讨论,并举例)
对极端值不敏感有利的例子:
考察课本中表21中的数据,如果把最后一个数据错写成22,并不会对样本中位数产生影响.也就是说对极端数据不敏感的方法能够有效地预防错误数据的影响,而在实际应用中,人为操作的失误经常造成错误数据.
对极端值不敏感有弊的例子:
某人具有初级计算机专业技术水平,想找一份收入好的工作,这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:
很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感.这里更好的方法是同时用平均工资和中位数来作为参考指标,选择平均工资较高且中位数较大的公司就业.对极端值不敏感的方法,不能反映数据中的极端情况.
同样的,可以从频率分布直方图中估计平均数,上图就显示了居民用水的平均数,它等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.由估计可知,居民的月均用水量的平均值为2.02t.
显示了居民月均用水量的平均数,它是频率分布直方图的“重心”.由于平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变.这是中位数、众数都不具有的性质.也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息.从图上可以看出,用水量最多的几个居民对平均数影响较大,这是因为他们的月均用水量与平均数相差太多了.
利用频率分布直方图估计众数、中位数、平均数:
估计众数:
频率分布直方图面积最大的方条的横轴中点数字.(最高矩形的中点)
估计中位数:
中位数把频率分布直方图分成左右两边面积相等.
估计平均数:
频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
总之,众数、中位数、平均数都是对数据中心位置的描述,可以作为总体相应特征的估计.样本众数易计算,但只能表达样本数据中的很少一部分信息,不一定唯一;
中位数仅利用了数据中排在中间数据的信息,与数据的排列位置有关;
平均数受样本中的每一个数据的影响,绝对值越大的数据,对平均数的影响也越大.三者相比,平均数代表了数据更多的信息,描述了数据的平均水平,是一组数据的“重心”.
应用示例
例1下面是某校学生日睡眠时间抽样频率分布表(单位:
h),试估计该校学生的日平均睡眠时间.
睡眠时间
人数
频率
[6,6.5)
5
0.05
[6.5,7)
17
0.17
[7,7.5)
33
0.33
[7.5,8)
37
0.37
[8,8.5)
6
0.06
[8.5,9)
2
0.02
合计
100
1
要确定这100名学生的平均睡眠时间,就必须计算其总睡眠时间,由于每组中的个体睡眠时间只是一个范围,可以用各组区间的组中值近似地表示.
解法一:
总睡眠时间约为
6.25×
5+6.75×
17+7.25×
33+7.75×
37+8.25×
6+8.75×
2=739(h),
故平均睡眠时间约为7.39h.
解法二:
求组中值与对应频率之积的和
0.05+6.75×
0.17+7.25×
0.33+7.75×
0.37+8.25×
0.06+8.75×
0.02=7.39(h).
答:
估计该校学生的日平均睡眠时间约为7.39h.
例2某单位年收入在10000到15000、15000到20000、20000到25000、25000到30000、30000到35000、35000到40000及40000到50000元之间的职工所占的比分别为10%,15%,20%,25%,15%,10%和5%,试估计该单位职工的平均年收入.
上述百分比就是各组的频率.
解:
估计该单位职工的平均年收入为
12500×
10%+17500×
15%+22500×
20%+27500×
25%+32500×
15%+37500×
10%+45000×
5%=26125(元).
估计该单位人均年收入约为26125元.
知能训练
从甲、乙两个公司各随机抽取50名员工月工资:
甲公司:
8008008008008001000100010001000
100010001000100010001000120012001200
120012001200120012001200120012001200
120012001200120012001200120012001500
150015001500150015001500200020002000
20002000250025002500
乙公司:
700700700700700700700700700
700700700700700700100010001000
100010001000100010001000100010001000
100010006000800010000
试计算这两个公司50名员工月工资平均数、众数、中位数,并估计这两个企业员工平均工资.
答案:
员工月工资平均数1240,众数1200,中位数1200;
员工月工资平均数1330,众数1000,中位数1000;
从总体上看乙公司员工月工资比甲公司少,原因是乙公司有几个收入特高的员工影响了工资平均数.
拓展提升
“用数据说话”,这是我们经常可以听到的一句话.但是,数据有时也会被利用,从而产生误导.例如,一个企业中,绝大多数是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入可以达到几十万元.这时,年收入的平均数会比中位数大得多.尽管这时中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工资待遇方面的提问.
你认为“我们单位的收入水平比别的单位高”这句话应当怎么解释?
这句话的目的是谨防利用人们对统计术语的模糊认识进行误导(蒙骗).使学生能够正确理解在日常生活中像“我们单位的收入水平比别的单位高”这类话的模糊性,这里的“收入水平”是指员工收入数据的某个中心点,即可以是中位数、平均数或众数,不同的解释有不同的含义.
在这里应该注意以下几点:
1.样本众数通常用来表示分类变量的中心值,容易计算,但是它只能表达样本数据中的很少一部分信息,通常用于描述分类变量的中心位置.
2.中位数不受少数几个极端数据(即排序靠前或排序靠后的数据)的影响,容易计算,它仅利用了数据中排在中间数据的信息.当样本数据质量比较差,即存在一些错误数据(如数据的录入错误、测量错误等)时,应该用抗极端数据强的中位数表示数据的中心值,可以利用计算机模拟样本,向学生展示错误数据对样本中位数的影响程度.
3.平均数受样本中的每一个数据的影响,“越离群”的数据,对平均数的影响也越大.与众数和中位数相比,平均数代表了数据更多的信息.当样本数据质量比较差时,使用平均数描述数据的中心位置可能与实际情况产生较大的误差.可以利用计算机模拟样本,向学生展示错误数据对样本平均数的影响程度.在体育、文艺等各种比赛的评分中,使用的是平均数.计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素而给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量保证公平性.
4.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;
反之,说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
5.使用者常根据自己的利益去选取使用中位数或平均数来描述数据的中心位置,从而产生一些误导作用.
课堂小结
1.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(平均数),会用样本的基本数字特征估计总体的基本数字特征;
2.平均数对数据有“取齐”的作用,代表一组数据的平均水平;
3.形成对数据处理过程进行初步评价的意识.
作业
习题2.2A组3.
设计感想
本堂课在初中学习的众数、中位数、平均数的基础上,学习了利用频率分布直方图估计众数、中位数、平均数,这是一种近似估计,但都能说明总体的分布特征,各有优缺点,讲解时紧扣课本内容,讲清讲透,使学生活学活用,会画频率分布直方图,会利用频率分布直方图估计众数、中位数、平均数,对总体作出正确的估计.
(设计者:
路波)
第2课时标准差
在一次射击选拔比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕
甲运动员:
7,8,7,9,5,4,9,10,7,4;
乙运动员:
9,5,7,8,7,6,8,6,7,7.
观察上述样本数据,你能判断哪个运动员发挥得更稳定些吗?
如果你是教练,选哪位选手去参加正式比赛?
我们知道,x甲=7,x乙=7.两个人射击的平均成绩是一样的.那么,是否两个人就没有水平差距呢?
从上图直观上看,还是有差异的.很明显,甲的成绩比较分散,乙的成绩相对集中,因此我们从另外的角度来考察这两组数据——标准差.
(1)如何通过频率分布直方图估计数字特征(中位数、众数、平均数)?
(2)有甲、乙两种钢筋,现从中各抽取一个标本(如下表)检查它们的抗拉强度(单位:
kg/mm2),通过计算发现,两个样本的平均数均为125.
甲
110
120
130
125
135
乙
115
145
哪种钢筋的质量较好?
(3)某种子公司为了在当地推行两种新水稻品种,对甲、乙两种水稻进行了连续7年的种植对比实验,年亩产量分别如下:
(千克)
甲:
600,880,880,620,960,570,900(平均773)
乙:
800,860,850,750,750,800,700(平均787)
请你用所学统计学的知识,说明选择哪种品种推广更好?
(4)全面建设小康社会是我们党和政府的工作重心,某市按当地物价水平计算,人均年收入达到1.5万元的家庭即达到小康生活水平.民政局对该市100户家庭进行调查统计,它们的人均收入达到了1.6万元,民政局即宣布该市民生活水平已达到小康水平,你认为这样的结论是否符合实际?
(5)如何考查样本数据的分散程度的大小呢?
把数据在坐标系中刻画出来,是否能直观地判断数据的离散程度?
(1)利用频率分布直方图估计众数、中位数、平均数:
(2)
由上图可以看出,乙样本的最小值100低于甲样本的最小值110,乙样本的最大值145高于甲样本的最大值135,这说明乙种钢筋没有甲种钢筋的抗拉强度稳定.
我们把一组数据的最大值与最小值的差称为极差(range).由上图可以看出,乙的极差较大,数据点较分散;
甲的极差小,数据点较集中,这说明甲比乙稳定.运用极差对两组数据进行比较,操作简单方便,但如果两组数据的集中程度差异不大时,就不容易得出结论.
(3)选择的依据应该是,产量高且稳产的品种,所以选择乙更为合理.
(4)不符合实际.
样本太小,没有代表性.若样本里有个别高收入者与多数低收入者差别太大.在统计学里,对统计数据的分析,需要结合实际,侧重于考察总体的相关数据特征.比如,市民平均收入问题,都是考察数据的分散程度.
(5)把问题(3)中的数据在坐标系中刻画出来.我们可以很直观地知道,乙组数据比甲组数据更集中在平均数的附近,即乙的分散程度小,如何用数字去刻画这种分散程度呢?
考察样本数据的分散程度的大小,最常用的统计量是方差和标准差.
标准差:
考察样本数据的分散程度的大小,最常用的统计量是标准差(standarddeviation).标准差是样本数据到平均数的一种平均距离,一般用s表示.
所谓“平均距离”,其含义可作如下理解:
假设样本数据是x1,x2,…,xn,
表示这组数据的平均数.xi到
的距离是|xi-
|(i=1,2,…,n).
于是,样本数据x1,x2,…,xn到
的“平均距离”是S=
.
由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差:
s=
意义:
标准差用来表示稳定性,标准差越大,数据的离散程度就越大,也就越不稳定.标准差越小,数据的离散程度就越小,也就越稳定.从标准差的定义可以看出,标准差s≥0,当s=0时,意味着所有的样本数据都等于样本平均数.
标准差还可以用于对样本数据的另外一种解释.例如,
在关于居民月均用水量的例子中,平均数
=1.973,标准差s=0.868,所以
+s=2.841,
+2s=3.709;
-s=1.105,
-2s=0.237.
这100个数据中,在区间[
-2s,
+2s]=[0.237,3.709]外的只有4个,也就是说,[
-2s,
+2s]几乎包含了所有样本数据.
从数学的角度考虑,人们有时用标准差的平方s2——方差来代替标准差,作为测量样本数据分散程度的工具:
s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2].
显然,在刻画样本数据的离散程度上,方差与标准差是一样的.但在解决实际问题时,一般多采用标准差.
需要指出的是,现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.如何求得总体的平均数和标准差呢?
通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.
两者都是描述一组数据围绕平均数波动的大小,实际应用中比较广泛的是标准差.如导入中的运动员成绩的标准差的计算器计算.
即s甲=2.
用类似的方法,可得s乙≈1.095.
由s甲>
s乙可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.
例1画出下列四组样本数据的条形图,说明它们的异同点.
(1)5,5,5,5,5,5,5,5,5;
(2)4,4,4,5,5,5,6,6,6;
(3)3,3,4,4,5,6,6,7,7;
(4)2,2,2,2,5,8,8,8,8.
先画出数据的条形图,根据样本数据算出样本数据的平均数,利用标准差的计算公式即可算出每一组数据的标准差.
四组样本数据的条形图如下:
四组数据的平均数都是5.0,标准差分别是:
0.00,0.82,1.49,2.83.
它们有相同的平均数,但它们有不同的标准差,说明数据的分散程度是不一样的.
例2甲、乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:
mm):
25.4625.3225.4525.3925.36
25.3425.4225.4525.3825.42
25.3925.4325.3925.4025.44
25.4025.4225.3525.4125.39
25.4025.4325.4425.4825.48
25.4725.4925.4925.3625.34
25.3325.4325.4325.3225.47
25.3125.3225.3225.3225.48
从生产的零件内径的尺寸看,谁生产的质量较高?
分析:
每一个工人生产的所有零件的内径尺寸组成一个总体.由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.40mm的差异大时质量低,差异小时质量高;
当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样,比较两人的生产质量,只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是,这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样本数据,然后比较这两个样本的平均数、标准差,以此作为两个总体之间差异的估计值.
用计算器计算可得
≈25.401,
≈25.406;
s甲≈0.037,s乙≈0.068.
从样本平均数看,甲生产的零件内径比乙的更接近内径标准(25.40mm),但是差异很小;
从样本标准差看,由于s甲<
s乙,因此甲生产的零件内径比乙的稳定程度高得多.于是,可以作出判断,甲生产的零件的质量比乙的高一些.
点评:
从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与所抽取的零件内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本.这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数、标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的代表性差,那么对总体所作出的估计就会产生偏差;
样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.
变式训练
某地区全体九年级的3000名学生参加了一次科学测试,为了估计学生的成绩,从不同学校的不同程度的学生中抽取了100名学生的成绩如下:
100分12人,90分30人,80分18人,70分24人,60分12人,50分4人.
请根据以上数据估计该地区3000名学生的平均分、合格率(60或60分以上均属合格).
运用计算器计算得:
=79.40,
(12+30+18+24+12)÷
100=96%,
所以样本的平均分是79.40分,合格率是96%,由此来估计总体3000名学生的平均分是79.40分,合格率是96%.
(1)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:
9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为____________.
(2)若给定一组数据x1,x2,…,xn,方差为s2,则ax1,ax2,…,axn的方差是____________.
(3)在相同条件下对自行车运动员甲、乙两人进行了6次测试,测得他们的最大速度(单位:
m/s)的数据如下:
27
38
30
35
31
29
34
28
36
试判断选谁参加某项重大比赛更合适?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用样本的数字特征估计总体 教案 样本 数字 特征 估计 总体