北大附中高考数学专题复习概率与统计经点答疑三.docx
- 文档编号:23658370
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:16
- 大小:246.55KB
北大附中高考数学专题复习概率与统计经点答疑三.docx
《北大附中高考数学专题复习概率与统计经点答疑三.docx》由会员分享,可在线阅读,更多相关《北大附中高考数学专题复习概率与统计经点答疑三.docx(16页珍藏版)》请在冰豆网上搜索。
北大附中高考数学专题复习概率与统计经点答疑三
学科:
数学
教学内容:
概率与统计经点答疑(三)
9.统计学中有哪些基本概念?
数理统计的研究对象也是随机现象.概率论是从对随机现象的大量观察中提出随机现象的数学模型,然后再研究数学模型的性质和特点,由此来阐述随机现象的统计规律性;而数理统计则是从对随机现象的观测所得资料出发,用概率论的理论来研究随机现象.比如对随机现象的数学模型中某些参数进行估计,或者检验随机现象的数学模型是否得当,然后在此基础上对随机现象的性质和特点作出推断.
现在介绍一些数理统计中的基本概念.
在数理统计中,我们最关心研究对象的某项数量指标.我们将研究对象的某项数量指标值的全体称为总体,总体中的每个元素称为个体.每个个体是一个实数.例如,某工厂生产的灯泡寿命的全体是一个总体,每一个灯泡的寿命是一个个体;某学校男学生的身高的全体是一个总体,每个男学生的身高是一个个体.
总体按照其包含的个体总数分为有限总体和无限总体.例如,某工厂10月份生产的灯泡寿命所成的总体中,个体的总数就是10月份生产的灯泡数,这是一个有限总体.而这个工厂生产的所有灯泡寿命所成的总体是一个无限总体,它包括以往生产和今后生产的灯泡寿命.当有限总体所包含的个体的总数很大时,可以近似地将它看成是无限总体.
例如,我们来考察某工厂10月份生产的灯泡的寿命所成的总体.我们知道灯泡寿命落在各个时间区间内有一定的百分比,如灯泡寿命落在1000小时~1300小时的占灯泡总数的85%.落在1300小时~1800小时的占灯泡总数的5%等等.即灯泡寿命的取值有一定的分布.一般,我们所研究的总体,即研究对象的某项数量指标X,它的取值在客观上有一定的分布,X是一个随机变量.我们对总体的研究,就是对相应的随机变量X的分布的研究.据此,X的分布函数和数字特征分别称为总体的分布函数和数字特征.
要将一个总体的性质了解得十分清楚,初看起来,最理想的办法是对每个个体逐个进行观察,但实际上这样做往往是不现实的.例如,要研究灯泡寿命,由于寿命试验是破坏性的,一旦我们获得试验的所有结果,这批灯泡也全部被烧毁了.因此我们只能从整批灯泡中抽取一些灯泡做寿命试验,并记录结果,然后根据这些数据来推断整批灯泡的寿命情况.又如,对于像啤酒瓶盖橡皮垫片这种产品,尽管只要通过简单的测量就能确定它是否合格,而且试验又不是破坏性的,然而,由于垫片的产量为数甚多,逐一测验要花费大量人力和时间,因此,我们仍然只能抽取少量垫片进行测量,并根据所得数据估计整批垫片的合格率.
一般地,我们都是从总体中抽取一部分个体进行观察,然后根据所得数据来推断总体的质,这些被抽出的部分个体,叫做总体的一个样本.
所谓从总体抽取一个个体,就是对总体X进行一次观察(即进行一次试验),并记录其结果.我们在相同的条件下对总体X进行n次重复的、独立的观察.将n次观察的结果按试验的次序记为
由于
是对随机变量X观察的结果,且各次观察的结果是在相同条件下独立进行的,所以有理由认为
是相互独立的,且都是与X具有相同分布的随机变量.这样得到的
称为来自总体X的一个简单随机样本,n称为这个样本的样本容量.
当n次观察一经完成,我们对这组随机变量
就得到一组观察值
它是一组实数,称为样本值.
对于有限总体,采用放回抽样就能得到简单随机样本,但放回抽样应用起来不方便,当个体的总数N比要得到的样本容量n大得多时,(—般当N≥10·n时),在实际中可将不放回抽样近似地当作放回抽样来处理.
综上所述,我们给出以下的定义.
定义:
设X是具有分布函数F的随机变量,若
是具有同一分布函数F的相互独立的随机变量,则称
为从分布函数F(或总体X)得到的容量为n的简单随机样本,简称样本.它们的观察值
称为样本值,又称为X的n个独立的观察值.
10.什么是频数表和频数分布?
假定某个数学班的学生的身高(单位:
厘米)如下:
164173168168176170162167171169
168160165168166168167171166172
用这种形式给出的数据难以说明什么问题.如果把它们加以整理,就比较容易说明问题了.例如,我们可以按照递增和递降的顺序来排列身高,这叫做排序.于是我们很容易看出:
160是最小身高,176是最大身高,身高为168或低于168的约占半数,所测量的最大值和最小值之差称为极差.下面是按递增顺序对身高的排序:
160166168168171
162166168169172
164167168170173
165167168171176
整理数据的—个更为有用的方法是频数表,它给出了每一类的频数.如下表所示:
身高
频数
身高
频数
160
161
162
163
164
165
166
167
168
1
0
1
0
1
1
2
2
5
169
170
171
172
173
174
175
176
177
1
1
2
1
1
0
0
1
0
表1-22
另外,常用的还有点频数图.点频数图是—种表示数据在极差范围内是怎样散布的图形,本例中我们看到身高似乎集中在168左右.如图1—4所示:
频数表和点频数图都用来表示数据的分布或频数分布.需要注意的是,频数分布是一个函数,即每个观察值与它的频数相对应.这样,—个频数可以用表示一个函数的三种方式的任何—种来表示:
用表、用图或用一个规则(有时是解析式).在描述数据时,通常用表(频数表)或图(例如点频数图等).可是,为了描述一种理论频数分布,有时必须要说明给出函数的规则.
有时,把数据整理成另一种分布──所谓的累积频数分布图──是方便易行的,如图1-5所示:
这种分布图给出了每一观察值与不大于该观察值的频数之间的关系,从图形上看,累积频数分布用一种累积图来表示.横轴上的数表示身高,纵轴左边的数表示累积频数.而右边的数表示累计频数的百分比.于是,每一个纵坐标给出了少于或等于相应横坐标上身高的频数或百分数,从上面的累积图显然看出,身高少于或等于167厘米的频数是8,百分比是
40%.
累积图上纵坐标为P,百分数的点所对应的横坐标叫做P百分位数.例如,90百分位数是172.这意味着90%的人的身高小于或等于172厘米.50百分位数称为中位数,25百分位数称为下四分位数,而75百分位数称为上四分位数.
11.如何对大量的原始数据进行数据分组?
当碰到大量原始数据时,把这些数据按适当的区间分组是方便的.为了便于计数,希望所选择的每个区间的中点是诸如5或10的倍数.一般区间数应不少于10个而不多于25个.区间的边界值通常应比原始数据中出现的小数位数多一位,以便使得每一个数据仅包含在一个区间之内.
假定下面的数据是有50个高中学生的一个班在某次数学测验中所得到的分数:
8874674969388677667594677869845039
5879709079977598776469827165688473
58787589916272627481798186789081
乍一看这些分数就知道,最低分为38,最高分为98.于是,如我们要把数据分组,使区间中点为5的整倍数,可分为13个区间,它满足大于10小于25的条件.为了保证每个数据仅被包含在一个区间内,区间的边界确定到小数点后一位.这就得出下面的数学测验得分的分组频数表.
区间
区间中点
频数
频数百分数
累积频数
累积频数百分比
37.5-42.5
42.5-47.5
47.5-52.5
52.5-57.5
57.5-62.5
62.5-67.5
67.5-72.5
72.5-77.5
77.5-82.5
82.5-87.5
87.5-92.5
92.5-97.5
97.5-102.5
40
45
50
55
60
65
70
75
80
85
90
95
100
2
0
2
0
4
5
7
8
10
4
5
2
1
4
0
4
0
8
10
14
16
20
8
10
4
2
2
2
4
4
8
13
20
28
38
42
47
49
50
4%
4%
8%
8%
16%
26%
40%
56%
76%
84%
94%
98%
100%
表1-23
为了从图形上说明分组数据的频数分布,我们用频数直方图来代替点频数图.直方图是一种条线图,其中每一个矩形的底表示一个区间,高表示在给定的区间内观测数据的个数.上述数学测验得分分组直方图如图1—6所示:
对未分组的数据作出的累积图给出了累积分布.对分组数据,我们叫做累积折线,也叫尖顶图.这个图的作法是:
折线上的点的横坐标取所在区间的右边界,纵坐标取相应的累积频数,然后把所确定的点用线段连接起来,横坐标为第一个区间的左边界、纵坐标为零的点,也包括在累积折线内.如图1-7所示:
这样,对于累积折线上的任何一点,纵坐标给出了少于或等于横坐标的观察数据的数目.从前面给出的数学测验的累积折线图上可以看到,少于或等于91分的大约为45人.
像在累积图上一样,也可用同样的方法在累积折线上决定百分位数.例如,在上图中可以读出,中位数为76;25百分位数是67;75百分位数是82.
前面的问题介绍了频数表和频数分布.这个问题中又介绍了如何对数据进行分组,让我们来看一道例题说明前面这些图表的作法.
例下面是30个灯泡的寿命(单位:
小时)
870840920950960810830860
900800940920850840880810
950840830910970930870930
900980910930970880
试作出这组数据的总频数图和累积图.另外把这些数据按区间795—815,815—835,835—855,…,975—995分组.作出其频数表、直方图和累积折线.
思路启迪
为了作出点频数图和累积图,我们先做出这组数据的频数
表如下所示:
寿命
频数
寿命
频数
800
810
820
830
840
850
860
1
2
0
2
3
12
1
900
910
920
930
940
950
960
2
2
2
3
1
2
1
870
880
890
2
2
0
970
980
990
2
1
0
表1-24
有了上面的频数表,我们很容易作出点频数图和累积图.
规范解法根据所给数据的频数表我们可以作出点频数图和累积图如下所示:
按给定的分组可得频数表、直方图和累积折线分别如下:
区间
区间中点
频数
频数百分比
累积频数
累积频数百分比
795-815
805
3
10
3
10
815-835
825
2
6.7
5
16.7
835-855
845
4
13.3
9
30
855-875
965
3
10
12
40
875-895
885
2
6.7
14
46.7
895-915
905
4
13.3
18
60
915-935
925
5
16.7
23
76.7
935-955
945
3
10
26
86.7
955-975
965
3
10
29
96.7
975-995
985
1
3.3
30
100
表1-25
12.如何度量给定数据组的中心趋势和离散程度?
资本家和工会公开辩论工人的工资,工会报告说,工人每年拿到的工资平均只有3000元,而资本家却说工人的年平均工资为7300元,到底谁的话更可信呢?
在作出判断之前,我们先来看一下用来计算上述结果的工人工资数:
3000,3000,3000,3500,4000,4500,6000,6000,15000和25000,在所有这些工资中,哪一层次的最普遍呢?
也就是说,在上面所列的工资中,工人拿哪一种工资的人最多?
在数据集合中,我们称出现最多的数字为“众数”.在上面给出的集合中,众数是3000.
用以代替所考虑的最常出现的工资数,我们把所有工人的工资放在—起求平均数,这样得到的是这组数据的平均数,一般用“
”表示.即:
对给定的数据
,有下列公式
.按公式可以计算我们给定的工资集合的平均数
元.那么7300元是不是对工人平均工资的合理的估计呢?
有时,用来估计数据集合的中心趋势的另一个数是中位数.把一组数据按从小到大的顺序排列.然后取中间的一个数,它就是中位数.如果数据的个数是偶数,那么中位数就取中间两个数的平均数.那么上述工资数据的中位数是多少呢?
易得这组数据的中位数是4250,那么在3000,4250,7300这三个数中,哪一个看上去是平均工资的最好估计呢?
上面讲的众数、平均数和中位数可统称为平均.一般情况下,如果有人告诉你某一数据集合的平均是某个数,而没告诉你它是一个什么样的平均,则这个信息就没有太大的作用.一般来说,即使告诉了你别人用了哪种平均方法,掌握更多的资料比只知道平均更为有价值.
例如,除了知道平均数为7300元以外,我们又知道它由10个人的工资所平均,这样的话,工资总数为73000元.当然,工资总数并不能告诉你工资是如何分配的,这对工会来说似乎是最重要的问题,如果有一份工资为50000元,(例如经理的工资),那么分给其他9个人的工资就不会太多.换一种情况,如果最高工资为8000元,那么大多数雇员一定会得到7000元左右的工资.这样,很清楚,如果与平均工资一起报出最高和最低工资,我们就能对上述两种说法有比较公正的看法了.
如果不是告诉读者最高和最低工资,而是给出了最高和最低工资之差(称为极差),对于精明的读者,仍然能找到许多有用的信息.例如,如果10份工资的平均数是7300元,极差是22000元,我们就能断定最高工资至少是22000元,更可能是24000元或25000元,因为最少的工资几乎可以肯定会是2000元或多一些.因此有如果10个人的平均工资是7300元,总工资应为73000元.如果一个人的工资大约是24000元,那么其他9个人的总工资应为49000元,9人的平均工资约为5444元.
一个数据集合的极差是这组数据离散程度的度量,可是,极差仅仅依赖于数据两端的值.它没有给出关于这两个端点间数据离散程度的任何信息.
对一个数据集来说,任何一个数据
对平均数
的离差为
使用前面关于工资的数据(它的平均数为7300元),我们计算3000对于平均数的离差:
再计算15000对于平均数的离差:
注意到3000对于
的离差为负.而15000对于
的离差为正.计算其余的每一工资数对于
的离差有:
3000
3500
4000
4500
6000
15000
25000
-4300
-3800
-3300
-2800
-1300
7700
17700
表1-26
由上表可知,所有工资数对于
的离差之和为0.
事实上,任何一组数据对平均数的离差之和总是0.因此,不能用对平均数的离差来描述这组数据的离散程度.因为对平均数离差的总和没有给出关于这一数据集合的离散程度的任何信息.
可是,我们可以考查对平均数离差的绝对值,由于一个数的绝对值不会是负数,并且除非对所有的
有
,否则对平均数的离差的绝对值之和就不会是0.就上述工资的数据来计算这个和,我们得到40900,这个和也不是关于数据离散程度的满意的度量,因此我们用测量数据的个数去除40900,得到4090这个值称为平均离差,它常用来度量数据的离散性.
虽然数据的平均离差能对数据的离散性进行可靠、合理的度量,但在更高级的数学处理中,绝对值的运算常常会带来一些问题(尤其对大量数据而言).因此,我们常采用所谓标准差来作为离散性的度量.
经过上面的叙述可以知道,之所以使用绝对值函数,主要考虑到它是正的,也就是说,我们只需要考虑绝对值的大小.具有同样性质的另一种函数是将离差平方.这种作法构成了下面标准差概念的基础.
定义:
已知
是一组观测值.
是这组观测数据的平均数,则该组数据的标准差为:
标准差的平方与标准差本身是一样方便的,标准差的平方
称为方差.
关于上面工资数据的离差和离差的平方如下表:
3000
3500
4000
4500
6000
15000
25000
-4300
-3800
-3300
-2800
-1300
770
1770
18490000
14440000
10890000
7840000
1690000
59290000
313290000
73000
0
464600000
表1-27
一个用以简化计算标准差的等价公式是:
为了推导这个公式,我们来考查方差的公式:
将和式中每一个二项式平方后得到:
整理后得到:
在上式两端取平方根就得到
因为上面的公式和关于标准差的原公式是等价的,所以如果觉得哪个方便就用哪个.例如计算3,5,8,13的标准差,用所推导的公式计算如下:
而运用原公式,我们计算如下:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北大附中 高考 数学 专题 复习 概率 统计 答疑