第6章 抽样推断.pptx
- 文档编号:30809562
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:138
- 大小:1.53MB
第6章 抽样推断.pptx
《第6章 抽样推断.pptx》由会员分享,可在线阅读,更多相关《第6章 抽样推断.pptx(138页珍藏版)》请在冰豆网上搜索。
第六章抽样推断,第六章抽样推断,1抽样推断有关概念与理论依据2抽样误差3抽样估计和推算4抽样推断的组织形式,第一节抽样推断有关概念与理论依据,一、抽样推断的意义、内容,
(一)概念按照随机原则从总体中抽取一部分单位进行观察,并根据被抽取的那部分单位的结果,对总体作出具有一定可靠程度的推断。
统计推断的过程,总体,总体均值、比例、方差,样本统计量例如:
样本均值、比例、方差,
(二)特点,1、按照随机原则抽取部分单位,抽样推断运用概率估计的方法。
2、部分单位总体。
3、抽样误差可以计算和控制。
(三)抽样推断的内容,参数估计依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。
假设检验利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。
二、抽样推断的作用,抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。
建立起以周期性普查为基础、经常性抽样调查为主体,必要的统计报表、重点调查、综合分析等为补充的国家统计调查方法体系,是我国统计方法制度改革的指导思想。
1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;,2.虽可进行全面调查观察,但比较困难或并不必要;,3.对普查或全面调查统计资料的质量进行检查和修正;,4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;,5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。
三、抽样推断的基本概念,
(一)全及总体和抽样总体(总体和样本),全及总体:
所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:
抽取出来调查观察的单位。
抽样总体的单位数用n表示。
n30大样本n30小样本,
(二)抽样方法,1、重复抽样:
2、不重复抽样:
重复抽样和不重复抽样会产生三个差别:
抽取的样本数目不同抽样误差的计算公式不同抽样误差的大小不同,(三)参数和统计量(全及指标和抽样指标、总体指标和样本指标),全及指标:
全及总体的那些指标。
抽样指标:
抽样总体的那些指标。
参数,统计量,(四)样本容量指一个样本所包括的单位数。
(五)抽样比例抽样比例是指在抽取样本时,所抽取的样本单位数与总体单位数之比。
(六)样本个数指从总体中可能抽取的最多的样本数量。
1、重复抽样:
2、不重复抽样:
可能样本数目的计算公式,置信度也称为可靠度,或置信水平、置信系数。
即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。
因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。
(七)置信度,
(一)大样本统计量分布的依据-中心极限定理,四、抽样推断的理论依据,1、正态分布,
(1)正态分布模型,如果连续型随机变量X的概率密度的函数为:
其中0,和均为常数,则称X服从参数为和的正态分布,记作X(,2)。
(2)正态分布的分布函数,若,对其进行“标准化”变换,即令则,(3)一般正态分布的标准化,2、中心极限定理,一般意义:
无论随机变量服从何种分布,只要样本容量足够大,都可以近似地看作是服从正态分布。
中心极限定理说明,大量相互独立的随机变量和的概率分布是以正态分布为极限的。
由于正态分布在概率论中占有的中心地位,中心极限定理因此而得名。
(1)独立同分布的中心极限定理,设随机变量X1,X2,Xn相互独立,服从同一分布,且有有限的数学期望和方差,则随机变量的分布函数满足如下极限式,定理的应用:
对于独立的随机变量序列,不管服从什么分布,只要它们是同分布,且有有限的数学期望和方差,那么,当n充分大时,这些随机变量之和近似地服从正态分布,
(2)棣莫弗拉普拉斯中心极限定理,定理设随机变量服从二项分布,则对于任意区间,恒有,二项分布的极限分布是正态分布,1、t分布及小样本均值的分布律,
(二)小样本统计量的分布律,设随机变量XN(0,1),Y2(n),且X与Y相互独立,则称统计量,服从自由度为n的t分布或学生氏分布,,记作,t分布的概率密度函数为,Tt(n).,其图形如图5-6所示(P106),,其形状类似标准正态分布的概率密度的图形.,当n较大时,t分布近似于标准正态分布.,当n较大时,t分布近似于标准正态分布.,一般说来,当n30时,t分布与标准正态分布N(0,1)就非常接近.,但对较小的n值,t分布与标准正态分布之间有较大差异.且P|T|t0P|X|t0,其中XN(0,1),即在t分布的尾部比在标准正态分布的尾部有着更大的概率.,t分布的数学期望与方差,设Tt(n),则E(T)=0,D(T)=,设(X1,X2,Xn)为来自正态总体XN(,2)的样本,则统计量,证,由定义5.4得,设(X1,X2,Xn1)和(Y1,Y2,Yn2)分别是来自正态总体N(1,2)和N(2,2)的样本,且它们相互独立,则统计量,其中,、,分别为两总体的样本方差.,分布,定义设总体,是的一个样本,则称统计量服从自由度为n的分布,记作,自由度是指独立随机变量的个数,,n个相互独立的标准正态分布之平方和服从自由度为n的分布,五、抽样推断的基本原理,举例说明,总体方差已知时总体均值的区间估计,当X,可以证明抽自该总体的简单随机样本X1,X2,Xn的样本平均数服从数学期望为,方差为的正态分布,即采用统计量Z,将非标准正态分布转化为标准正态分布,,N(0,1),例,对于给定的置信概率,,可以查正态分布表,,(即概率度t)使得:
得出相应的临界值,即在给定的显著性水平下,总体均值在的置信概率下的置信区间为,第二节抽样误差,一、抽样误差的概念及种类,在抽样调查中,总体指标与样本指标不一致,两者的偏差称为抽样误差。
抽样误差即指随机误差,这是抽样调查固有的误差,是无法避免的。
抽样误差的作用:
1.在于说明样本指标的代表性大小。
误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。
2.说明样本指标和总体指标相差的一般范围。
二、抽样平均误差,
(一)概念,抽样平均误差是所有可能出现的样本指标的标准差。
反映样本指标与总体指标之间误差的一般水平。
通常用表示。
即是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。
(二)理论公式,例,(三)实际计算公式(以纯随机抽样为例),1.重复抽样,2.不重复抽样,总体方差未知时解决方法:
1、用样本方差代替,2、用过去全面调查的资料,也可以用过去抽样调查的资料代替。
某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时,根据以往资料=20小时,试求抽样平均误差。
例,重复抽样:
不重复抽样:
某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方法从中抽取150只进行质量检验,有147只合格,试求这批印花玻璃杯合格率的抽样平均误差。
例,(四)影响抽样误差的因素:
4.不同的抽样组织形式。
1.全及总体标志变异程度。
2.抽样单位数目的多少。
3.不同的抽样方法。
例:
假定抽样单位数增加2倍、0.5倍时,其他条件不变,抽样平均误差怎样变化?
解:
抽样单位数增加2倍,即为原来的3倍,抽样单位数增加0.5倍,即为原来的1.5倍,即:
当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。
即:
当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
例:
假定抽样平均误差缩小40%时,其他条件不变,抽样单位数怎样变化?
解:
抽样平均误差缩小40%时,即为原来的60%,,即:
当抽样平均误差缩小40%时,样本单位数增加1.78倍。
一、抽样极限误差,样本指标与总体指标之间允许的误差范围叫抽样极限误差。
也称抽样允许误差。
它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。
即:
第三节抽样估计和推算,根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:
=t,(t为概率度),当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);,例,可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
上例资料编成次数分配表如下:
-30样本个数样本频率样本累计频率05101520合计,-30样本个数样本频率样本累计频率050.200.20580.320.521060.240.761540.160.922020.081.00合计251.00-,P409,
(一)点估计,二、抽样估计方法,(定值估计),点估计,点估计的方法有矩估计法顺序统计量法最大似然法最小二乘法,理论基础是抽样分布,=S2,设,表示总体平均数,的估计量,,表示总体成数P的估计量,,表示总体方差,的估计量,,则点估计的基本公式为:
点估计量优劣的标准:
(三)有效性,
(一)无偏性,
(二)一致性,1无偏性,设,为未知参数,的估计量,若估计量,的期望等于未知参数的真值,即,则称,为,的无偏估计量。
无偏性,估计量的数学期望等于被估计的总体参数,对于任意给定的0,有对于这种极限,我们称估计量依概率收敛于。
2一致性,一致性,随着样本容量的增大,估计量越来越接近被估计的总体参数,3有效性,设,为,的两个无偏估计量,,的方差小于,的方差,即V(,)V(,)则称,是较,有效的估计量。
有效性,一个方差较小的无偏估计量称为一个更有效的估计量。
如,与其他估计量相比,样本均值是一个更有效的估计量,
(二)区间估计,是根据样本指标和抽样误差去推断全及指标的可能范围,并能反映出估计的准确程度和把握程度。
由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。
就是说,推断全及指标在这个范围内只有一定的把握程度。
用数学的语言讲,就是有一定的概率。
落在总体均值某一区间内的样本,换句话说,对于总体的被估计指标X,找出样本的两个估计量x1和x2,使被估计指标X落在区间(x1,x2)内的概率1-01,为已知的。
即P(x1Xx2)=1-是给定的。
我们称区间(x1,x2)为总体指标X的置信区间,其估计置信度为1一,称为显著性水平,x1是置信下限,x2是置信上限。
?
某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。
试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。
例,某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。
试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。
则:
例,某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
例,某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
例,三、全及总体总量指标的推断,
(一)直接推断法,1.如果采用点估计方法:
上例1中:
40010000=400(万千克)如果用区间估计方法:
上例1中该农场小麦总产量的范围为:
t=2:
(397.62402.38)10000=397.62402.38(万千克)t=3:
(396.43403.57)10000=396.43403.57(万千克),2.上例2中,全部一级品数量的范围为:
(92.82%97.18%)8000=7425.67774.4(件),
(二)修正系数法,就是用抽样所得的调查结果同有关资料对比的系数来修正全面统计资料时采用的一种方法。
某村6000农户,2005年年末统计养猪头数,上报的是9000头,现抽10(600户)的农户复查,发现有漏报,也有重报。
按600户,原来数字是890头,实际复查为935头。
例1,某市房地局,年报工资总额3218.1万元。
现抽查14个单位:
年报:
415.03万元多报:
0.44万元少报:
1.47万元抵冲后1.47-0.44=1.03(万元),例2,第四节抽样设计与组织实施,一、抽样设计的有关问题,
(一)设计抽样调查方案的基本要求,1、遵循随机原则2、控制误差范围3、考虑投入产出关系4、保证必要的样本容量5、选择适宜的抽样组织方式,
(二)抽样框的编制,抽样框一般有三种形式:
1、名录抽样框2、区域抽样框3、时间抽样框,一个理想的抽样框的要求是,它应该尽可能地与目标总体相一致。
一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单就是一个完备的抽样框。
在完备的抽样框中,每个元素必须且只能同一个号码对应。
简单随机抽样(纯随机抽样),类型抽样(分类抽样),机械抽样(等距抽样),整群抽样(分群抽样),二、抽样组织方式,
(一)简单随机抽样(纯随机抽样),1、内容:
2、随机抽取样本的具体做法:
(1)直接抽取法;
(2)抽签法;(3)随机数字表法。
对总体中所有单位除编号外不加任何处理,完全随机地抽取调查单位。
3、特点:
(1)是最基本的抽样方式;,
(2)简便易行;,(3)适用于总体单位数不太多的均匀总体。
(四个公式),4、抽样平均误差的计算,5、总体指标的区间估计,(两个不等式),例1:
从某县农民家庭中随机抽取100户调查其年收入情况,农民家庭按年人均纯收入分组资料如下,试以95%的概率保证程度对全县农民家庭的年人均纯收入和年人均纯收入在10000元以上户数所占比重作出区间估计.年人均纯收入(元)户数(户)9000以下39000-10000710000-110002811000-120003212000-130002013000以上10合计100,例1:
从某县农民家庭中随机抽取100户调查其年收入情况,农民家庭按年人均纯收入分组资料如下,试以95%的概率保证程度对全县农民家庭的年人均纯收入和年人均纯收入在10000元以上户数所占比重作出区间估计.年人均纯收入(元)户数(户)fxxf9000以下39000-10000710000-110002811000-120003212000-130002013000以上10合计100,例1:
从某县农民家庭中随机抽取100户调查其年收入情况,农民家庭按年人均纯收入分组资料如下,试以95%的概率保证程度对全县农民家庭的年人均纯收入和年人均纯收入在10000元以上户数所占比重作出区间估计.年人均纯收入(元)户数(户)fxxf9000以下3850025500250563009000-1000079500665002500470010000-1100028105002940002217880011000-1200032115003680038720012000-130002012500250002464200013000以上101350013500044521000合计100-1139000141790000,例2:
电视台某栏目主持人欲知观众对该栏目是否喜欢,随机抽取400名观众调查,其中喜欢的有240人.试在95.45%的概率保证下,估计喜欢该栏目的观众比重范围.如果该主持人希望估计的误差不超过5%,则有多大的把握程度?
例3:
某学校随机抽查10名男生,平均身高170cm,标准差12cm,问有多大把握估计全校男生身高介于160.5179.5cm之间?
(二)类型抽样(分类抽样),1、内容:
先对总体各单位按一定标志加以分类(组),然后再从各类(组)中按随机原则抽取样本。
2、样本分配形式:
(1)等比例抽样;,
(2)不等比例抽样。
(3)抽样调查成本较低。
3、特点:
(1)先分组,后抽样;,
(2)样本代表性高、抽样误差较小;,4、抽样平均误差的计算:
(1)重复抽样:
(2)不重复抽样:
5、总体指标的区间估计,两个不等式,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。
现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。
资料如下表。
试以68.27%概率保证估计该农场小麦单位面积产量的区间。
以同样概率保证估计该农场小麦高产田面积比重的区间。
例,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。
现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。
资料如下表。
试以68.27%概率保证估计该农场小麦单位面积产量的区间。
以同样概率保证估计该农场小麦高产田面积比重的区间。
例,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。
现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。
资料如下表。
试以68.27%概率保证估计该农场小麦单位面积产量的区间。
以同样概率保证估计该农场小麦高产田面积比重的区间。
例,(三)机械抽样(等距抽样),先将全及总体的所有单位按某一标志顺序排队,然后按固定的间隔抽取样本。
1、内容:
(1)无关标志:
选择标志与抽样调查内容无关。
(2)有关标志:
选择标志与抽样调查内容有关。
2、样本抽取方法:
(1)随机起点等距抽样,
(2)半距起点等距抽样,kkk,k,(k为抽取间隔),(3)对称等距抽样,kkk,2k-a2k+a4k-a4k+a,a,k,(k为抽取间隔),3、特点:
(2)第一个样本是随机的;后面的样本是确定的;,
(1)先排队,后抽样;按无关标志排队,相当于简单随机抽样,按有关标志排队,相当于类型抽样。
(3)注意避免抽样间隔与现象本身的周期重合。
4、抽样平均误差的计算(不重复抽样):
(1)无关标志排队,按简单随机抽样方法计算。
(2)有关标志排队,按类型抽样的方法计算。
5、总体指标的区间估计,两个不等式,(四)整群抽样(分群抽样),先将总体分成若干群,再以群为单位从总体中抽取样本群,对抽中的群内所有单位都进行观察。
2、特点:
(2)一般比其它抽样方式的抽样误差大。
(3)抽样误差受群间方差的影响。
(1)工作比较简单;,1、内容:
3、抽样平均误差的计算(不重复抽样):
4、总体指标的区间估计,两个不等式,把某企业大量生产的一种零件分成288群,现从中抽取24群产品进行检验,用以检查产品的合格率,检查结果如下表。
试以99.73%的概率保证估计全部零件合格率的区间。
例,例,例,三、抽样数目的确定,
(一)影响必要抽样数目的因素,
(二)必要抽样数目的计算(简单随机抽样),建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。
根据过去资料为1.5M3、1.36M3和1.48M3,求样本数应是多少?
如果误差范围缩小一半,其他条件不变,样本数又应是多少?
例1,某笔厂月产10000支金笔,以前多次抽样调查,一等品率为90%、92%、96%和94%,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?
例2,注意:
必要抽样数目计算时方差问题:
1、取最大值。
最大2、p取最接近0.5的值。
最小0.5,一、名词解释,二、简答,三、判断,抽样推断,抽样误差,抽样平均误差,抽样极限误差,1、影响抽样平均误差大小的因素有哪些?
2、影响样本容量的因素有哪些?
1、重复抽样的抽样误差不一定大于不重复抽样的抽样误差。
(),三、选择,2、因为不知道总体方差或标准差,所以无法计算抽样平均误差。
(),3、抽样平均误差总是小于抽样极限误差。
(),4、在简单随机抽样中,如果重复抽样的抽样极限误差增长40%,其它条件不变,则样本单位数只需要原来的一半左右。
(),1、抽样调查的主要目的()A、用样本指标来推算总体指标B、对调查单位作深入研究C、计算和控制抽样误差D、广泛运用数学方法,2、抽样平均误差反映了样本指标与总体指标之间的()A、实际误差B、实际误差的绝对值C、平均误差程度D、可能误差范围,3、反映样本指标与总体指标之间抽样误差可能范围的指标是()A、抽样平均误差B、抽样极限误差C、抽样允许误差D、精确程度,4、在其他条件不变的情况下,提高抽样估计的可靠程度,其精确程度将()A、保持不变B、随之扩大C、随之缩小D、无法确定,5、极限误差与抽样平均误差数值之间的关系为()A、前者一定小于后者B、前者一定大于后者C、前者一定等于后者D、前者既可以大于后者,也可以小于后者,6、成数方差的最大值,是()A、0.1B、0.9C、0.25D、0.5,7、在其它条件不变的情况下,抽样单位数增加一半,则抽样平均误差()A、缩小为原来的81.6%B、缩小为原来的50%C、缩小为原来的25%D、扩大为原来的四倍,8、在简单随机重复抽样条件下,为使抽样误差减少一半,样本容量应增加()A、4倍B、3倍C、2倍D、1倍,9、在一定的抽样平均误差条件下()A、扩大极限误差范围,可以提高推断的可靠程度B、扩大极限误差范围,会降低推断的可靠程度C、缩小极限误差范围,可以提高推断的可靠程度D、缩小极限误差范围,不改变推断的可靠程度,某地区2007年随机抽取100户住户,测得户均月收入为3000元,标准差为400元,其中有10户的户均月收入在6000元以上,若以95.45%的概率保证程度,试估计:
(1)该地区住户户均月收入的可能范围
(2)在全部住户中,户均月收入在6000元以上的户数所占比重的可能范围。
一批商品10000件运抵仓库,随机抽取100件检验其质量,发现有10件不合格,试以95.45%的概率保证程度对该批商品的合格率作出区间估计。
若误差范围缩小一半,其他条件不变,问需要从总体中抽取多少件商品进行检验?
某厂对产品使用寿命进行检测,用简单随机不重复抽样方法从5000个成品中抽取200个,对其进行寿命调查,测得样本平均寿命为4340小时,样本标准差为731小时。
(1)试以95%的概率保证程度对该批产品的平均使用寿命进行区间估计。
(2)若概率保证程度不变,极限误差不超过70小时,按重复抽样方法,则至少要抽取多少件产品为样本。
从某个年级学生中按简单随机抽样方式抽取40学生,对统计课的考试成绩进行检查,得知其平均分数为78.75分,标准差为12.13分。
要求:
(1)试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。
(2)若误差范围缩小一半,其他条件不变,问需要抽取多少名学生?
P248训练资料2,P249训练资料,EndofChapter6,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 抽样推断 抽样 推断