统计学之抽样估计.pptx
- 文档编号:30846517
- 上传时间:2024-02-03
- 格式:PPTX
- 页数:123
- 大小:1.26MB
统计学之抽样估计.pptx
《统计学之抽样估计.pptx》由会员分享,可在线阅读,更多相关《统计学之抽样估计.pptx(123页珍藏版)》请在冰豆网上搜索。
本料源资来第四章抽样估计第四章抽样估计是是以概率抽样的样本观测结果去估计未知的总体数量特征本章要求学生本章要求学生:
明确抽样推断的含义、特点和作用。
了解有关的基本明确抽样推断的含义、特点和作用。
了解有关的基本概念,重点掌握抽样误差的含义、影响因素及其计概念,重点掌握抽样误差的含义、影响因素及其计算。
算。
了解抽样估计的基本方法和步骤;抽样方案设计的基了解抽样估计的基本方法和步骤;抽样方案设计的基本原则。
全面掌握简单随机抽样的平均误差计算方法本原则。
全面掌握简单随机抽样的平均误差计算方法和样本容量确定方式,了解其它各种抽样组织方式的和样本容量确定方式,了解其它各种抽样组织方式的含义及平均误差的计算。
含义及平均误差的计算。
第一节抽样分布
(一)总体分布及其特征
(一)总体分布及其特征总体分布总体分布:
是指总体中所有个体关于某个变量(标志)的是指总体中所有个体关于某个变量(标志)的取值所形成的分布。
取值所形成的分布。
总体参数:
反映总体分布特征的指标总体参数:
反映总体分布特征的指标一、抽样分布的基本问题一、抽样分布的基本问题q2007年4月23日,上证综合指数再创历史新高,达到3710.89点,在上证A股上市的836家企业中,789家上涨,47家下跌。
总体:
836家上市公司总体分布:
836家上市公司当天的涨幅xii=1.836总体参数:
4.36%X=总统参数的值应由总体全部单位的标志值计算而来:
总统参数的值应由总体全部单位的标志值计算而来:
n对于特定的总体,总体参数值是唯一的。
对于特定的总体,总体参数值是唯一的。
n对于无限总体和非全面调查的有限总体,总体参数的值通对于无限总体和非全面调查的有限总体,总体参数的值通常未知,只能通过样本来估计。
常未知,只能通过样本来估计。
常用的总体参数有两个:
常用的总体参数有两个:
总体均值(包括是非变量的均值);总体均值(包括是非变量的均值);总体方差或标准差(包括是非变量的方差或标准差)。
总体方差或标准差(包括是非变量的方差或标准差)。
总体均值(总体平均数):
总体均值(总体平均数):
设有限总体容量为设有限总体容量为N,各单位某项标志的值分别,各单位某项标志的值分别为;若为是非标志则设为;若为是非标志则设具有某种属性具有某种属性的有个单位,不具有某种属性的有个单位,的有个单位,不具有某种属性的有个单位,则则NXXX,210N1NmiimiiiNiiffXXNXX111或2、总体方差:
、总体方差:
miiimiiNiifXXfSXXNS12121221111或3、总体成数(总体比例)、总体成数(总体比例)5、总体是非标志的方差、总体是非标志的方差4、总体是非标志的均值、总体是非标志的均值PNNQNNP1,01PQNNSP12PXP
(二)样本分布及其特征
(二)样本分布及其特征样本分布:
样本分布:
样本中所有个体关于某个变量(标志)的取值样本中所有个体关于某个变量(标志)的取值所形成的分布。
所形成的分布。
当样本容量很大,或者是当逐渐增大时,样本分布会接近当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。
总体分布。
如果样本容量很小,样本分布就有可能与总体分布相差很如果样本容量很小,样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。
大,抽样估计的结果就会很差。
样本统计量:
反映样本分特征的指标,样本统计量:
反映样本分特征的指标,TT样本统计量是随机变量,它的取值随样本的不同而发生样本统计量是随机变量,它的取值随样本的不同而发生变化。
变化。
样本统计值:
是样本统计量的值,由样本单位样本统计值:
是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。
的标志值计算而来,用来估计总体参数。
例:
我们选择奥运板块的个股作为样本。
则样本分布为该板块60只股票在4月23日的涨跌情况样本统计量xii=160样本是随机产生的,为了提高样本的代表性,可以选择合适的抽样组织方式来产生样本抽样估计就是以可知但非唯一的样本统计量的值抽样估计就是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。
来估计未知但唯一的总体参数的值。
4.86%x=与总体参数相对应,常用的样本统计量有与总体参数相对应,常用的样本统计量有样本均值(或样本成数)、样本均值(或样本成数)、样本方差(或样本标准差)。
样本方差(或样本标准差)。
样本均值:
样本均值:
设样本中设样本中n个样本单位某项标志的标志值分个样本单位某项标志的标志值分别为,若为是非标志别为,若为是非标志则设具有和不具有某种属性的样本单位数目分则设具有和不具有某种属性的样本单位数目分别为和个,则别为和个,则miimiiiniiffxxnxx111或nxxx,210n1n2.样本方差:
样本方差:
miiimiiniifxxfsxxns12121221111或3.样本成数(样本比例):
样本成数(样本比例):
4.样本是非标志的均值:
样本是非标志的均值:
5.样本是非标志的方差:
样本是非标志的方差:
pnnqnnp1,01pxppqnnsp12(三)抽样分布及其特征(三)抽样分布及其特征1、抽样分布的概念、抽样分布的概念抽样分布,是样本统计量的概率分布,由样本统抽样分布,是样本统计量的概率分布,由样本统计量的所有可能取值和与之相应的概率组成。
计量的所有可能取值和与之相应的概率组成。
假设从容量为假设从容量为NN的总体中抽取容量为的总体中抽取容量为nn的样本最多可抽取的样本最多可抽取mm套套不同的样本,则不同的样本,则mm个样本统计值的频率分布,即为抽样分布。
个样本统计值的频率分布,即为抽样分布。
实际的抽样分布形成取决于以下五个因素:
实际的抽样分布形成取决于以下五个因素:
总体分布(越集中,抽样分布越集中)总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)分布也不同)估计量构造(样本估计量不同,抽样分布不同)估计量构造(样本估计量不同,抽样分布不同)1x1x2x2xxX大样本小样本返回Xx最基本的抽样分布:
最基本的抽样分布:
样本均值的抽样分布,样本成数的抽样分布样本均值的抽样分布,样本成数的抽样分布2、抽样分布形式、抽样分布形式设从容量为设从容量为N的有限总体中抽取容量为的有限总体中抽取容量为n的样本,最多的样本,最多可抽取可抽取m套不同样本,计算得套不同样本,计算得m个样本统计值个样本统计值n设设m个样本统计值经单项式分组可分为个样本统计值经单项式分组可分为k组,则抽样分布组,则抽样分布的表现形式为:
的表现形式为:
样本均值的抽样分布形式样本均值的抽样分布形式ix1x3xkx2xi123k样本成数的抽样分布形式样本成数的抽样分布形式i123kip1p2p3pkpmki,1例:
某车间班组例:
某车间班组5个工人日工资为个工人日工资为34,38,42,46,50元,则总体日平均工资元,则总体日平均工资总体日工资方差总体日工资方差不同抽样方法下样本平均数的抽样分布不同抽样方法下样本平均数的抽样分布元)(42550464238341NXXNii40484)0()4()8(1122222122NiiXXNS
(1)用重复抽样方法(考虑顺序)用重复抽样方法(考虑顺序)从从5个工人(日工资为个工人(日工资为34,38,42,46,50元)中随机抽元)中随机抽取取2人构成样本,共人构成样本,共52=25个样本个样本所有可能样本及其平均数所有可能样本及其平均数:
样本变样本变量量3438424650343842465034363840423638404244384042444640424446484244464850第一第一单位单位第二第二单位单位样本样本均值均值整理出样本平均数的频率分布如下整理出样本平均数的频率分布如下:
频率频率343638404244464850合计合计4%8%12%16%20%16%12%8%4%100%样本均值的抽样本均值的抽样分布样分布样本均值的抽样分布图样本均值的抽样分布图x0%5%10%15%20%25%343638404244464850
(2)用不重复抽样方法)用不重复抽样方法从从5个工人(日工资为个工人(日工资为34,38,42,46,50元)中元)中随机抽取随机抽取2人构成样本(考虑顺序),共人构成样本(考虑顺序),共5420个样本。
个样本。
所有可能样本及其平均数所有可能样本及其平均数:
样本变量样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一第一单位单位第二第二单位单位样本样本均值均值整理出样本平均数的频率分布如下整理出样本平均数的频率分布如下:
频率频率36384042444648合计合计10%10%20%20%20%10%10%100%样本均值的抽样分布图样本均值的抽样分布图样本均值的抽样样本均值的抽样分布分布x0%5%10%15%20%25%36384042444648设某总体由10个球组成,其中红球6个,现从总体中随机抽取4个球,那么在重复抽样和不重复抽样下红球比重(样本成数)的抽样分布分别如何?
重复抽样下红球比重的抽样分布00.250.50.7510.02560.15360.34560.34560.1296总体成数为总体方差为在重复抽样下,样本中红球的比重服从二项分布ipip0.6P=
(1)0.26671NPPN-=-1111()nnnnnnCPQp-=00.250.50.751不重复抽样下红球比重的抽样分布01101010(,)nnNNnNCCnnNNCp=ipip1210242109021080210152103、抽样分布特征、抽样分布特征指样本统计量的数学期望和方差。
指样本统计量的数学期望和方差。
样本统计量的数学期望:
样本统计量的数学期望:
即所有样本统计值的平均数即所有样本统计值的平均数样本统计量的方差:
样本统计量的方差:
即所有样本统计值关于数学期望的方差即所有样本统计值关于数学期望的方差iiEV2)()(iiE)(在前面的例题中,重复抽样的抽样分布如下在前面的例题中,重复抽样的抽样分布如下:
频率频率343638404244464850合计合计4%8%12%16%20%16%12%8%4%100%样本平均数的期望与方差:
样本平均数的期望与方差:
xXxxEi(元)42%450%836%434)(16%4)4250(%8)4236(%4)4234()()(2222ixExxVi不重复抽样的抽样分布如下不重复抽样的抽样分布如下:
频率频率36384042444648合计合计10%10%20%20%20%10%10%100%样本平均数的均值与方差:
样本平均数的均值与方差:
xXxxEi42)(12)()(2ixExxVi结论:
结论:
(1)样本均值抽样分布的期望值(均值):
)样本均值抽样分布的期望值(均值):
在重复或不重复抽样下都等于总体均值在重复或不重复抽样下都等于总体均值
(2)样本均值抽样分布的方差:
)样本均值抽样分布的方差:
重复抽样方差大于不重复抽样,显然不重复抽样的抽样分布重复抽样方差大于不重复抽样,显然不重复抽样的抽样分布较为集中较为集中。
样本成数的抽样分布:
样本成数的抽样分布:
(1)样本成数的期望值:
)样本成数的期望值:
在重复或不重复抽样下,样本成数的均值都等于总体成数在重复或不重复抽样下,样本成数的均值都等于总体成数
(2)样本成数抽样分布的方差:
)样本成数抽样分布的方差:
重复抽样方差大于不重复抽样,显然不重复抽样下样本成重复抽样方差大于不重复抽样,显然不重复抽样下样本成数的抽样分布较为集中数的抽样分布较为集中在各种抽样方法和抽样组织方式下,样本统计量的数学在各种抽样方法和抽样组织方式下,样本统计量的数学期望(均值)都等于总体参数。
期望(均值)都等于总体参数。
抽样分布的特征主要通过方差来体现。
抽样分布的特征主要通过方差来体现。
抽样分布越集中、样本统计量的方差越小,则样本统计抽样分布越集中、样本统计量的方差越小,则样本统计值越可能接近总体参数真值,抽样估计的误差越小、估值越可能接近总体参数真值,抽样估计的误差越小、估计结果就越精确。
计结果就越精确。
实际调查只抽取一个样本,因此上述抽样分布形式难以实际调查只抽取一个样本,因此上述抽样分布形式难以列出。
列出。
结论:
结论:
二、抽样分布定理二、抽样分布定理
(一)样本均值的抽样分布定理
(一)样本均值的抽样分布定理1、正态分布的再生定理、正态分布的再生定理若总体服从正态分布若总体服从正态分布则样本均值也服从正态分布则样本均值也服从正态分布),(2SXNXxXxE)()()(2重复抽样nSxV)()1()(2有限总体且不重复抽样NnnSxVn=45.2)(xVn=16x抽样分布抽样分布(重复抽样)(重复抽样)50X10s50)(xE5)(xV任一总体(不要求正态),期望值,方差,任一总体(不要求正态),期望值,方差,当当n足够大(当足够大(当n30,大样本,大样本),趋于正态分布,趋于正态分布2、中心极限定理、中心极限定理X2SxXxE)()()(2重复抽样nSxV)()1()(2有限总体且不重复抽样NnnSxV当样本容量足够大时(大样本)当样本容量足够大时(大样本),抽样分布,抽样分布趋于正态分布趋于正态分布小样本从任意分从任意分布的总体布的总体中抽样中抽样大样本xXxE)()()(2重复抽样nSxV若正态总体方差未知且若正态总体方差未知且n较小,则服从于自由度为较小,则服从于自由度为n-1的的t分布分布任一总体但任一总体但n较小,服从于自由度为较小,服从于自由度为n-1的的t分布分布3、t分布定理分布定理xx
(二)样本成数的抽样分布定理
(二)样本成数的抽样分布定理1、二项分布定理、二项分布定理从一个数学期望为从一个数学期望为pp、方差为的是非变、方差为的是非变量(量(0-10-1分布)总体中随机重复地抽取容量为分布)总体中随机重复地抽取容量为nn的样本的样本,那么样本中含有个某类变量值的概率为:
,那么样本中含有个某类变量值的概率为:
1NPQN-1111()nnnnnnCPQp-=1n2.2.超几何分布定理超几何分布定理从一个数学期望为从一个数学期望为pp、方差为的是非、方差为的是非变量(变量(0-10-1分布)总体中随机不重复地抽取容量为分布)总体中随机不重复地抽取容量为nn的样本,那么当同时时,样本中含有的样本,那么当同时时,样本中含有个某类变量值的概率为:
个某类变量值的概率为:
1NPQN-01101010(,)nnNNnNCCnnNNCp=1nnN0nN1从一个数学期望为从一个数学期望为pp、方差为的是非变量(、方差为的是非变量(0-10-1分分布)总体中随机抽取容量为布)总体中随机抽取容量为nn的样本,的样本,当当n足够大足够大(nP5,n(1-P)5),样本成数),样本成数p趋于正态分布趋于正态分布或E(p)=P3.3.中心极限定理中心极限定理nNNPQpV)1()(1NnNnPQ1NPQN-正态分布是最重要、最常用的抽样分布,由于正态分布是最重要、最常用的抽样分布,由于抽样一般都是大样本,因此可以根据正态分布抽样一般都是大样本,因此可以根据正态分布理论,根据样本统计值来推断总体参数。
理论,根据样本统计值来推断总体参数。
第二节抽样误差第二节抽样误差一、抽样中的误差构成一、抽样中的误差构成抽样中的总误差可以简单地分为两类,抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。
一类是抽样误差,一类非抽样误差。
抽样误差偶然性代表性误差抽样误差偶然性代表性误差非抽样误差系统性代表性误差非抽样误差系统性代表性误差观测性误差观测性误差抽样误差:
抽样误差:
是由于抽样的非全面性和随机性所引起的偶然性误差,是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。
即因抽样估计值随样本不同所造成的误差。
特点:
随着样本容量的增大而趋向于特点:
随着样本容量的增大而趋向于0,不可避免但可,不可避免但可以加以控制以加以控制由随机抽样的偶然性因素以外的原因所引起的误差。
由随机抽样的偶然性因素以外的原因所引起的误差。
超过一定程度就会使抽样估计失去意义,减少和控制超过一定程度就会使抽样估计失去意义,减少和控制它十分重要。
它十分重要。
非抽样误差:
非抽样误差:
总误差总误差抽样误差抽样误差非抽样误差非抽样误差222非抽样误差抽样误差总误差二、抽样误差的表现形式二、抽样误差的表现形式指样本估计量与总体参数之间数量上的差异,指样本估计量与总体参数之间数量上的差异,仅指由于仅指由于随机抽样的偶然性因素使样本不足以代表总体而引起样本指标随机抽样的偶然性因素使样本不足以代表总体而引起样本指标与总体指标间的差异(即偶然性误差)与总体指标间的差异(即偶然性误差)抽样误差有三种形式:
抽样误差有三种形式:
实际抽样误差实际抽样误差抽样标准误差(抽样平均误差)抽样标准误差(抽样平均误差)抽样极限误差抽样极限误差
(一)抽样实际误差
(一)抽样实际误差n是抽样估计值与总体参数真值之间的绝对离差是抽样估计值与总体参数真值之间的绝对离差,表示为,表示为n由于随机抽样的偶然性,使样本结构不能与总体结构由于随机抽样的偶然性,使样本结构不能与总体结构完全一致,从而产生估计误差完全一致,从而产生估计误差成数估计的实际抽样误差成数估计的实际抽样误差是随机变量,不同的样本有不同的抽样实际误差;对于任何一个样本,其抽样实际误差都不可能测量出来均值估计的实际抽样误差均值估计的实际抽样误差XxPp
(二)抽样标准误差
(二)抽样标准误差(抽样平均误差)(抽样平均误差)是反映抽样误差一般水平的指标,实质含义是指样本统计量抽样分布的标准差n它能够反映样本指标与总体指标的平均离散程度,也能够说明样本指标代表性的大小。
抽样标准误越大(小),抽样分布越离散(集中),样本指标对总体指标的代表性越差(好),抽样估计的误差平均来讲就越大。
()SEq()Vq=()SEq对于固定的总体和样本容量对于固定的总体和样本容量n,在相同的抽样方法和抽样组,在相同的抽样方法和抽样组织形式下,抽样标准误是一个唯一确定的值。
所谓“抽织形式下,抽样标准误是一个唯一确定的值。
所谓“抽样误差能够加以计算并控制”样误差能够加以计算并控制”前例中,重复抽样下前例中,重复抽样下前例中,不重复抽样下前例中,不重复抽样下说明不重复抽样的样本均值分布比重复抽样更为集中,其说明不重复抽样的样本均值分布比重复抽样更为集中,其样本均值的代表性更好,不重复抽样的抽样误差小于重复样本均值的代表性更好,不重复抽样的抽样误差小于重复抽样。
所以实践中常用不重复抽样方法。
抽样。
所以实践中常用不重复抽样方法。
16)(16)()(2xSExExxVi12)(12)()(2xSExExxVin上述公式在实际应用时有两个困难:
上述公式在实际应用时有两个困难:
实际中无法根据该公式计算出标准误,只能根实际中无法根据该公式计算出标准误,只能根据一套样本来计算其估计值,据一套样本来计算其估计值,因此抽样标准误是随机变量因此抽样标准误是随机变量n需计算所有可能样本统计量的值;需计算所有可能样本统计量的值;n需要知道总体参数需要知道总体参数)(xse)(xse(三)抽样极限误差(三)抽样极限误差n是指以样本估计量估计总体参数时所允许的最大是指以样本估计量估计总体参数时所允许的最大误差范围误差范围通常用表示通常用表示n抽样极限误差的实际意义:
抽样极限误差的实际意义:
实际上就是对总体参数可允许取的最高值或最低实际上就是对总体参数可允许取的最高值或最低值进行了限制。
即希望总体参数落在样本估计量的值进行了限制。
即希望总体参数落在样本估计量的范围内范围内n抽样极限误差越大,抽样估计的精确度越低抽样极限误差越大,抽样估计的精确度越低抽样极限误差取决于两个因素:
抽样极限误差取决于两个因素:
1、抽样标准误,即抽样分布本身具有多大的标准差。
、抽样标准误,即抽样分布本身具有多大的标准差。
当抽样方法和样本容量固定时,抽样标准误差是一个定值,反当抽样方法和样本容量固定时,抽样标准误差是一个定值,反映抽样误差的一般水平。
因此,映抽样误差的一般水平。
因此,抽样极限误差通常可以以抽样抽样极限误差通常可以以抽样标准误差为标准单位来衡量,表示为抽样标准误差的多少倍标准误差为标准单位来衡量,表示为抽样标准误差的多少倍。
抽样标准误差越大(小),抽样极限误差就越大(小)抽样标准误差越大(小),抽样极限误差就越大(小)2、抽样估计的概率保证程度(置信水平)、抽样估计的概率保证程度(置信水平)是指抽样估计结果的可靠程度,即抽样估计结果是准是指抽样估计结果的可靠程度,即抽样估计结果是准确的概率(可靠程度)有多大。
通常表示为确的概率(可靠程度)有多大。
通常表示为,其中称为显著性水平。
,其中称为显著性水平。
指的是总体参数处于区间指的是总体参数处于区间内的概率。
即总体参数不在区内的概率。
即总体参数不在区间内的概率。
间内的概率。
要求估计结果的可靠程度越高,则越大。
要求估计结果的可靠程度越高,则越大。
11抽样极限误差、抽样标准误差与抽样概率保证程抽样极限误差、抽样标准误差与抽样概率保证程度三者的关系可以这样表示:
度三者的关系可以这样表示:
其中,称为抽样其中,称为抽样概率度。
概率度。
可见,抽样极限误差分别与概率度和抽样标准误差成正比。
可见,抽样极限误差分别与概率度和抽样标准误差成正比。
越高,抽样估计的可靠程度越高,但也越高,抽样估计的可靠程度越高,但也越大,估计的精确度降低。
越大,估计的精确度降低。
)(2/SEZ)(/2/SEZ1正是当显著性水平为时的标准正正是当显著性水平为时的标准正态分布的双侧临界值,概率保证程度与态分布的双侧临界值,概率保证程度与的值是一一对应的的值是一一对应的2/Z2Z2Z22112/Z2/Z68.27%95.45%99.73%常用的:
常用的:
1=68.27%,90%,95%,95.45%,99.73%=1,1.64,1.96,2,3)1,0(NZ012321312za第三节参数估计方法第三节参数估计方法一、估计量的评价标准一、估计量的评价标准所谓估计量,就是用以估计总体参数的量,或者所谓估计量,就是用以估计总体参数的量,或者说是根据样本结果来估计总体参数的规则或形式说是根据样本结果来估计总体参数的规则或形式。
估计量一般情况下就是样本统计量。
估计量一般情况下就是样本统计量。
估计量的某一具体的值,就称为估计值。
估计量的某一具体的值,就称为估计值。
评价估计量好坏的标准有四个:
评价估计量好坏的标准有四个:
无偏性、有效性、一致性和充分性无偏性、有效性、一致性和充分性符合标准的称为符合标准的称为优良估计量优良估计量当有两个以上个统计量可以估计某个总体参数时,应该如何选择?
oemmxX指估计量的抽样分布的均值应等于被估指估计量的抽样分布的均值应等于被估计的总体参数的真值计的总体参数的真值无偏性无偏性若,则称为的无偏估计量。
若,则称为的无偏估计量。
xCA无偏无偏有偏有偏)(E12优良估计量的抽样分布方差小于其他估优良估计量的抽样分布方差小于其他估计量的方差计量的方差有效性有效性若若则称为比更有效的估计量则称为比更有效的估计量ABx1212)()(21VVXxem指随着样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 抽样 估计