样本数值特征估计总体数字特征.docx
- 文档编号:29300698
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:19
- 大小:30.30KB
样本数值特征估计总体数字特征.docx
《样本数值特征估计总体数字特征.docx》由会员分享,可在线阅读,更多相关《样本数值特征估计总体数字特征.docx(19页珍藏版)》请在冰豆网上搜索。
样本数值特征估计总体数字特征
2.2.2用样本的数字特征估计总体的数字特征
整体设计
教学分析
教科书结合实例展示了频率分布的众数、中位数和平均数.对于众数、中位数和平均数的概念,重点放在比较它们的特点,以及它们的适用场合上,使学生能够发现,在日常生活中某些人通过混用这些(描述平均位置的)统计术语进行误导.另一方面,教科书通过思考栏目让学生注意到,直接通过样本计算所得到的中位数与通过频率直方图估计得到的中位数不同.在得到这个结论后,教师可以举一反三,使学生思考对于众数和平均数,是否也有类似的结论.进一步,可以解释对总体众数、总体中位数和总体平均数的两种不同估计方法的特点.在知道样本数据的具体数值时,通常通过样本计算中位数、平均值和众数,并用它们估计总体的中位数、均值和众数.但有时我们得到的数据是整理过的数据,比如在媒体中见到的频数表或频率表,用教科书中的方法也可以得到总体的中位数、均值和众数的估计.
教科书通过几个现实生活的例子,引导学生认识到:
只描述平均位置的特征是不够的,还需要描述样本数据离散程度的特征.通过对如何描述数据离散程度的探索,使学生体验创造性思维的过程.教科书通过例题向学生展示如何用样本数字特征解决实际问题,通过阅读与思考栏目“生产过程中的质量控制图”,让学生进一步体会分布的数字特征在实际中的应用.
三维目标
1.能利用频率分布直方图估计总体的众数、中位数、平均数;能用样本的众数、中位数、平均数估计总体的众数、中位数、平均数,并结合实际,对问题作出合理判断,制定解决问题的有效方法;初步体会、领悟“用数据说话”的统计思想方法;通过对有关数据的搜集、整理、分析、判断,培养学生“实事求是”的科学态度和严谨的工作作风.
2.正确理解样本数据标准差的意义和作用,学会计算数据的标准差;能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;会用样本的基本数字特征估计总体的基本数字特征,形成对数据处理过程进行初步评价的意识.
3.在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法;会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辨证地理解数学知识与现实世界的联系.
重点难点
教学重点:
根据实际问题对样本数据中提取基本的数据特征并作出合理解释,估计总体的基本数字特征;体会样本数字特征具有随机性.
教学难点:
用样本平均数和标准差估计总体的平均数与标准差;能应用相关知识解决简单的实际问题.
课时安排
2课时
教学过程
第1课时众数、中位数、平均数
导入新课
思路1
在一次射击比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕
甲运动员:
7,8,6,8,6,5,8,10,7,4;
乙运动员:
9,5,7,8,7,6,8,6,7,7.
观察上述样本数据,你能判断哪个运动员发挥得更稳定些吗?
为了从整体上更好地把握总体的规律,我们要通过样本的数据对总体的数字特征进行研究.——用样本的数字特征估计总体的数字特征.(板书课题)
思路2
在日常生活中,我们往往并不需要了解总体的分布形态,而是更关心总体的某一数字特征,例如:
买灯泡时,我们希望知道灯泡的平均使用寿命,我们怎样了解灯泡的使用寿命呢?
当然不能把所有灯泡一一测试,因为测试后灯泡则报废了.于是,需要通过随机抽样,把这批灯泡的寿命看作总体,从中随机取出若干个个体作为样本,算出样本的数字特征,用样本的数字特征来估计总体的数字特征.
推进新课
新知探究
提出问题
(1)什么是众数、中位数、平均数?
(1)如何绘制频率分布直方图?
(3)如何从频率分布直方图中估计众数、中位数、平均数?
活动:
那么学生回忆初中所学的一些统计知识,思考后展开讨论,教师提示引导.
讨论结果:
(1)初中我们曾经学过众数(在一组数据中,出现次数最多的数称为众数)、中位数(在按大小顺序排列的一组数据中,居于中间的数称为中位数)、平均数(一般是一组数据和的算术平均数)等各种数字特征,应当说,这些数字都能够为我们提供关于样本数据的特征信息.
(2)画频率分布直方图的一般步骤为:
计算一组数据中最大值与最小值的差,即求极差;决定组距与组数;将数据分组;列频率分布表;画频率分布直方图.
(3)教材前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t(最高的矩形的中点),它告诉我们,该市的月均用水量为2.25t的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.
请大家翻回到课本看看原来抽样的数据,有没有2.25这个数值呢?
根据众数的定义,2.25怎么会是众数呢?
为什么?
(请大家思考作答)
分析:
这是因为样本数据的频率分布直方图把原始的一些数据给遗失了,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.
提问:
那么如何从频率分布直方图中估计中位数呢?
分析:
在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,矩形的面积大小正好表示频率的大小,即中位数左边和右边的直方图的面积应该相等.由此可以估计出中位数的值为2.02.
思考:
2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中的原因吗?
(原因同上:
样本数据的频率分布直方图把原始的一些数据给遗失了)
课本显示,大部分居民的月均用水量在中部(2.02t左右),但是也有少数居民的月均用水量特别高,显然,对这部分居民的用水量作出限制是非常合理的.
思考:
中位数不受少数几个极端值的影响,这在某些情况下是一个优点,但是它对极端值的不敏感有时也会成为缺点,你能举例说明吗?
(让学生讨论,并举例)
对极端值不敏感有利的例子:
考察课本中表21中的数据,如果把最后一个数据错写成22,并不会对样本中位数产生影响.也就是说对极端数据不敏感的方法能够有效地预防错误数据的影响,而在实际应用中,人为操作的失误经常造成错误数据.
对极端值不敏感有弊的例子:
某人具有初级计算机专业技术水平,想找一份收入好的工作,这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:
很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感.这里更好的方法是同时用平均工资和中位数来作为参考指标,选择平均工资较高且中位数较大的公司就业.对极端值不敏感的方法,不能反映数据中的极端情况.
同样的,可以从频率分布直方图中估计平均数,上图就显示了居民用水的平均数,它等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.由估计可知,居民的月均用水量的平均值为2.02t.
显示了居民月均用水量的平均数,它是频率分布直方图的“重心”.由于平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变.这是中位数、众数都不具有的性质.也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息.从图上可以看出,用水量最多的几个居民对平均数影响较大,这是因为他们的月均用水量与平均数相差太多了.
利用频率分布直方图估计众数、中位数、平均数:
估计众数:
频率分布直方图面积最大的方条的横轴中点数字.(最高矩形的中点)
估计中位数:
中位数把频率分布直方图分成左右两边面积相等.
估计平均数:
频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
总之,众数、中位数、平均数都是对数据中心位置的描述,可以作为总体相应特征的估计.样本众数易计算,但只能表达样本数据中的很少一部分信息,不一定唯一;中位数仅利用了数据中排在中间数据的信息,与数据的排列位置有关;平均数受样本中的每一个数据的影响,绝对值越大的数据,对平均数的影响也越大.三者相比,平均数代表了数据更多的信息,描述了数据的平均水平,是一组数据的“重心”.
应用示例
思路1
例1
(1)若M个数的平均数是X,N个数的平均数是Y,则这M+N个数的平均数是___________;
(2)如果两组数x1,x2,…,xn和y1,y2,…,yn的样本平均数分别是x和y,那么一组数x1+y1,x2+y2,…,xn+yn的平均数是___________.
活动:
学生思考或交流,教师提示,根据平均数的定义得到结论.
解:
(1);
(2).
例2某校高一年级的甲、乙两个班级(均为50人)的语文测试成绩如下(总分:
150分),试确定这次考试中,哪个班的语文成绩更好一些.
甲班:
11286106841001059810294107
87112949499901209895119
1081009611511110495108111105
104107119107931029811211299
92102938494941009084114
乙班:
11695109961069810899110103
949810510111510411210111396
108100110981078710810610397
10710611112197107114122101107
10711111410610410495111111110
分析:
我们可用一组数据的平均数衡量这组数据的集中水平,因此,分别求出甲、乙两个班的平均分即可.
解:
用计算器分别求出甲班的平均分为101.1,乙班的平均分为105.4,故这次考试乙班成绩要好于甲班.
思路2
例1下面是某校学生日睡眠时间抽样频率分布表(单位:
h),试估计该校学生的日平均睡眠时间.
睡眠时间
人数
频率
[6,6.5)
5
0.05
[6.5,7)
17
0.17
[7,7.5)
33
0.33
[7.5,8)
37
0.37
[8,8.5)
6
0.06
[8.5,9)
2
0.02
合计
100
1
分析:
要确定这100名学生的平均睡眠时间,就必须计算其总睡眠时间,由于每组中的个体睡眠时间只是一个范围,可以用各组区间的组中值近似地表示.
解法一:
总睡眠时间约为
6.25×5+6.75×17+7.25×33+7.75×37+8.25×6+8.75×2=739(h),
故平均睡眠时间约为7.39h.
解法二:
求组中值与对应频率之积的和
6.25×0.05+6.75×0.17+7.25×0.33+7.75×0.37+8.25×0.06+8.75×0.02=7.39(h).
答:
估计该校学生的日平均睡眠时间约为7.39h.
例2某单位年收入在10000到15000、15000到20000、20000到25000、25000到30000、30000到35000、35000到40000及40000到50000元之间的职工所占的比分别为10%,15%,20%,25%,15%,10%和5%,试估计该单位职工的平均年收入.
分析:
上述百分比就是各组的频率.
解:
估计该单位职工的平均年收入为
12500×10%+17500×15%+22500×20%+27500×25%+32500×15%+37500×10%+45000×5%=26125(元).
答:
估计该单位人均年收入约为26125元.
知能训练
从甲、乙两个公司各随机抽取50名员工月工资:
甲公司:
8008008008008001000100010001000
100010001000100010001000120012001200
120012001200120012001200120012001200
120012001200120012001200120012001500
150015001500150015001500200020002000
20002000250025002500
乙公司:
700700700700700700700700700
700700700700700700100010001000
100010001000100010001000100010001000
100010001000100010001000100010001000
100010001000100010001000100010001000
100010006000800010000
试计算这两个公司50名员工月工资平均数、众数、中位数,并估计这两个企业员工平均工资.
答案:
甲公司:
员工月工资平均数1240,众数1200,中位数1200;
乙公司:
员工月工资平均数1330,众数1000,中位数1000;从总体上看乙公司员工月工资比甲公司少,原因是乙公司有几个收入特高的员工影响了工资平均数.
拓展提升
“用数据说话”,这是我们经常可以听到的一句话.但是,数据有时也会被利用,从而产生误导.例如,一个企业中,绝大多数是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入可以达到几十万元.这时,年收入的平均数会比中位数大得多.尽管这时中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工资待遇方面的提问.
你认为“我们单位的收入水平比别的单位高”这句话应当怎么解释?
这句话的目的是谨防利用人们对统计术语的模糊认识进行误导(蒙骗).使学生能够正确理解在日常生活中像“我们单位的收入水平比别的单位高”这类话的模糊性,这里的“收入水平”是指员工收入数据的某个中心点,即可以是中位数、平均数或众数,不同的解释有不同的含义.
在这里应该注意以下几点:
1.样本众数通常用来表示分类变量的中心值,容易计算,但是它只能表达样本数据中的很少一部分信息,通常用于描述分类变量的中心位置.
2.中位数不受少数几个极端数据(即排序靠前或排序靠后的数据)的影响,容易计算,它仅利用了数据中排在中间数据的信息.当样本数据质量比较差,即存在一些错误数据(如数据的录入错误、测量错误等)时,应该用抗极端数据强的中位数表示数据的中心值,可以利用计算机模拟样本,向学生展示错误数据对样本中位数的影响程度.
3.平均数受样本中的每一个数据的影响,“越离群”的数据,对平均数的影响也越大.与众数和中位数相比,平均数代表了数据更多的信息.当样本数据质量比较差时,使用平均数描述数据的中心位置可能与实际情况产生较大的误差.可以利用计算机模拟样本,向学生展示错误数据对样本平均数的影响程度.在体育、文艺等各种比赛的评分中,使用的是平均数.计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素而给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量保证公平性.
4.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
5.使用者常根据自己的利益去选取使用中位数或平均数来描述数据的中心位置,从而产生一些误导作用.
课堂小结
1.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(平均数),会用样本的基本数字特征估计总体的基本数字特征;
2.平均数对数据有“取齐”的作用,代表一组数据的平均水平;
3.形成对数据处理过程进行初步评价的意识.
作业
习题2.2A组3.
设计感想
本堂课在初中学习的众数、中位数、平均数的基础上,学习了利用频率分布直方图估计众数、中位数、平均数,这是一种近似估计,但都能说明总体的分布特征,各有优缺点,讲解时紧扣课本内容,讲清讲透,使学生活学活用,会画频率分布直方图,会利用频率分布直方图估计众数、中位数、平均数,对总体作出正确的估计.
(设计者:
路波)
第2课时标准差
导入新课
思路1
平均数为我们提供了样本数据的重要信息,但是,有时平均数也会使我们作出对总体的片面判断.某地区的统计显示,该地区的中学生的平均身高为176cm,给我们的印象是该地区的中学生生长发育好,身高较高.但是,假如这个平均数是从五十万名中学生抽出的五十名身高较高的学生计算出来的话,那么,这个平均数就不能代表该地区所有中学生的身体素质.因此,只有平均数难以概括样本数据的实际状态.所以我们学习从另外的角度来考察样本数据的统计量——标准差.(教师板书课题)
思路2
在一次射击选拔比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕
甲运动员:
7,8,7,9,5,4,9,10,7,4;
乙运动员:
9,5,7,8,7,6,8,6,7,7.
观察上述样本数据,你能判断哪个运动员发挥得更稳定些吗?
如果你是教练,选哪位选手去参加正式比赛?
我们知道,x甲=7,x乙=7.两个人射击的平均成绩是一样的.那么,是否两个人就没有水平差距呢?
从上图直观上看,还是有差异的.很明显,甲的成绩比较分散,乙的成绩相对集中,因此我们从另外的角度来考察这两组数据——标准差.
推进新课
新知探究
提出问题
(1)如何通过频率分布直方图估计数字特征(中位数、众数、平均数)?
(2)有甲、乙两种钢筋,现从中各抽取一个标本(如下表)检查它们的抗拉强度(单位:
kg/mm2),通过计算发现,两个样本的平均数均为125.
甲
110
120
130
125
120
125
135
125
135
125
乙
115
100
125
130
115
125
125
145
125
145
哪种钢筋的质量较好?
(3)某种子公司为了在当地推行两种新水稻品种,对甲、乙两种水稻进行了连续7年的种植对比实验,年亩产量分别如下:
(千克)
甲:
600,880,880,620,960,570,900(平均773)
乙:
800,860,850,750,750,800,700(平均787)
请你用所学统计学的知识,说明选择哪种品种推广更好?
(4)全面建设小康社会是我们党和政府的工作重心,某市按当地物价水平计算,人均年收入达到1.5万元的家庭即达到小康生活水平.民政局对该市100户家庭进行调查统计,它们的人均收入达到了1.6万元,民政局即宣布该市民生活水平已达到小康水平,你认为这样的结论是否符合实际?
(5)如何考查样本数据的分散程度的大小呢?
把数据在坐标系中刻画出来,是否能直观地判断数据的离散程度?
讨论结果:
(1)利用频率分布直方图估计众数、中位数、平均数:
估计众数:
频率分布直方图面积最大的方条的横轴中点数字.(最高矩形的中点)
估计中位数:
中位数把频率分布直方图分成左右两边面积相等.
估计平均数:
频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(2)
由上图可以看出,乙样本的最小值100低于甲样本的最小值110,乙样本的最大值145高于甲样本的最大值135,这说明乙种钢筋没有甲种钢筋的抗拉强度稳定.
我们把一组数据的最大值与最小值的差称为极差(range).由上图可以看出,乙的极差较大,数据点较分散;甲的极差小,数据点较集中,这说明甲比乙稳定.运用极差对两组数据进行比较,操作简单方便,但如果两组数据的集中程度差异不大时,就不容易得出结论.
(3)选择的依据应该是,产量高且稳产的品种,所以选择乙更为合理.
(4)不符合实际.
样本太小,没有代表性.若样本里有个别高收入者与多数低收入者差别太大.在统计学里,对统计数据的分析,需要结合实际,侧重于考察总体的相关数据特征.比如,市民平均收入问题,都是考察数据的分散程度.
(5)把问题(3)中的数据在坐标系中刻画出来.我们可以很直观地知道,乙组数据比甲组数据更集中在平均数的附近,即乙的分散程度小,如何用数字去刻画这种分散程度呢?
考察样本数据的分散程度的大小,最常用的统计量是方差和标准差.
标准差:
考察样本数据的分散程度的大小,最常用的统计量是标准差(standarddeviation).标准差是样本数据到平均数的一种平均距离,一般用s表示.
所谓“平均距离”,其含义可作如下理解:
假设样本数据是x1,x2,…,xn,表示这组数据的平均数.xi到的距离是|xi-|(i=1,2,…,n).
于是,样本数据x1,x2,…,xn到的“平均距离”是S=.
由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差:
s=.
意义:
标准差用来表示稳定性,标准差越大,数据的离散程度就越大,也就越不稳定.标准差越小,数据的离散程度就越小,也就越稳定.从标准差的定义可以看出,标准差s≥0,当s=0时,意味着所有的样本数据都等于样本平均数.
标准差还可以用于对样本数据的另外一种解释.例如,
在关于居民月均用水量的例子中,平均数=1.973,标准差s=0.868,所以
+s=2.841,+2s=3.709;
-s=1.105,-2s=0.237.
这100个数据中,在区间[-2s,+2s]=[0.237,3.709]外的只有4个,也就是说,[-2s,+2s]几乎包含了所有样本数据.
从数学的角度考虑,人们有时用标准差的平方s2——方差来代替标准差,作为测量样本数据分散程度的工具:
s2=[(x1-)2+(x2-)2+…+(xn-)2].
显然,在刻画样本数据的离散程度上,方差与标准差是一样的.但在解决实际问题时,一般多采用标准差.
需要指出的是,现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.如何求得总体的平均数和标准差呢?
通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.
两者都是描述一组数据围绕平均数波动的大小,实际应用中比较广泛的是标准差.如导入中的运动员成绩的标准差的计算器计算.
用计算器计算运动员甲的成绩的标准差的过程如下:
即s甲=2.
用类似的方法,可得s乙≈1.095.
由s甲>s乙可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.
应用示例
思路1
例1画出下列四组样本数据的条形图,说明它们的异同点.
(1)5,5,5,5,5,5,5,5,5;
(2)4,4,4,5,5,5,6,6,6;
(3)3,3,4,4,5,6,6,7,7;
(4)2,2,2,2,5,8,8,8,8.
分析:
先画出数据的条形图,根据样本数据算出样本数据的平均数,利用标准差的计算公式即可算出每一组数据的标准差.
解:
四组样本数据的条形图如下:
四组数据的平均数都是5.0,标准差分别是:
0.00,0.82,1.49,2.83.
它们有相同的平均数,但它们有不同的标准差,说明数据的分散程度是不一样的.
例2甲、乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:
mm):
甲
25.4625.3225.4525.3925.36
25.3425.4225.4525.3825.42
25.3925.4325.3925.4025.44
25.4025.4225.3525.4125.39
乙
25.4025.4325.4425.4825.48
25.4725.4925.4925.3625.34
25.3325.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本 数值 特征 估计 总体 数字