05 抽样估计Word文件下载.docx
- 文档编号:18364290
- 上传时间:2022-12-15
- 格式:DOCX
- 页数:20
- 大小:78KB
05 抽样估计Word文件下载.docx
《05 抽样估计Word文件下载.docx》由会员分享,可在线阅读,更多相关《05 抽样估计Word文件下载.docx(20页珍藏版)》请在冰豆网上搜索。
二项分布的极限分布是正态分布,因此,当n充分大时,若随机变量Xn~B(n,p),则近似地有Xn~N(np,np(1-p),于是我们可以利用正态分布近似地计算二项分布的概率。
同时,这个定理还给离散型随机变量与连续型随机变量之间的转换提供了一种有效途径。
【例5—1】在一家保险公司里有10000人参加人寿保险,每人每年交保费12元,假定一年内一个意外死亡的概率为0.006,死亡时其家属可向保险公司索赔1000元,计算:
保险公司亏本的概率有多大?
保险公司一年利润不低于40000元的概率有多大?
解:
以X表示10000个参加保险的人中一年内意外死亡的人数,则X~B(10000,0.006)。
因此,
P{1000X>120000}表示保险公司亏本的概率,
P{120000-1000X≥400000}表示保险公司一年的利润不低于40000元的概率,由于n=10000比较大,所以根据定理2得:
(1)P{1000X>120000}=P{X>120}
=P{(X-10000×
0.006)/(10000×
0.006×
0.994)1/2>(120-60)/(59.64)1/2}=1-φ(7.7693)=0
(2)P{120000-1000x≥40000}=P{(X-10000×
0.994)1/2≤(80-60)/(59.64)1/2}=φ(2.5898)=0.9952
第二节 抽样方法与抽样分布
一、抽样方法
(一)重复抽样和不重复抽样(识记二者概念。
重点)
对于无限总体而言,抽样总是可以认为是重复抽样(即重置抽样或放回抽样),因此,它没有重复抽样和不重复抽样的区别。
然而,对于有限总体而言,重复抽样与不重复抽样是不一样的。
下面我们只对有限总体的重复抽样和不重复抽样进行分别介绍。
1.重复抽样
首先,我们假设有限总体中所包含的个体数为N,重复抽样可以认为是有限总体条件下的简单随机抽样。
其特点是:
如果我们做了n次独立试验(也就是抽取n个个体的样本),那么总样本个数(即所能获得的全部样本数)是Nn而样本容量为n,每个样本被抽到的概率都为1/Nn。
2.不重复抽样
不重复抽样(即不重置抽样或不放回抽样)是指每次从有限总体中随机抽取一个个体,登记结果后不放回原总体,下一个个体继续从总体中余下的个体中随机抽取。
第一,n个个体的样本是由n次抽取的结果组成。
第二,每次抽取的结果不是独立的。
第三,虽然在同次试验中每个个体被抽中的概率是相同的,但在不同次试验中每个个体被抽中的概率是不相同的。
(二)其他抽样方法
简单随机抽样、类型抽样、等距抽样、整群抽样。
二、抽样分布
(一)抽样分布的概念(识记。
对于给定的总体和抽样方式以及样本容量,样本指标取值的概率分布就称为抽样分布。
【例5—2】对于由6、7、8三个数组成的总体,若给定样本容量为2,并采用有放回的简单随机抽样方式,则样本均值这一统计量共有5个不同的取值,且这5个不同取值出现的概率不同。
列出此样本均值的概率分布,如表5—1所示。
表5—1 样本均值的概率分布
样本均值
6
6.5
7
7.5
8
概率
1/9
2/9
3/9
样本统计量的精确分布通常也称为正态总体小样本分布;
样本统计量的极限分布称为任意总体大样本分布。
在使用样本统计量的极限分布时,通常都要求样本容量至少在50以上。
(二)常用的抽样分布
样本均值、样本比例和样本方差(领会)。
1.样本均值的抽样分布
不论所考察总体的概率分布如何,只要样本容量n足够大,其样本均值
的概率分布趋近于以总体均值μ为期望,以
为标准误差的正态分布,即有:
在实践中,总体的方差σ2总是未知的,通常需要用其估计量即样本方差S2来代替。
由于修正的无偏样本方差
是总体方差的无偏估计,所以实际应用中,通常都用无偏样本方差S2来代替总体方差。
在小样本的情况下,记用s替换σ后的随机变量为t,对于抽自正态总体的简单随机样本,就有:
2.样本比例的抽样分布
样本比例是总体比例的估计量,只能给出大样本条件下样本比例的抽样分布。
将样本比例作为一个数学期望为0、方差为1的标准正态变量,记此标准化变量为Z,则有:
3.样本方差的抽样分布
主要是在正态分布总体中应用。
第三节 点估计
一、总体参数与其估计量
在统计中需要使用一定的方法根据样本数据来推断总体的指标数值,总体指标又称为参数。
根据样本来推断总体指标数值就称为抽样估计。
它是推断统计学的主要内容之一。
估计量、估计值(识记):
用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。
总体指标的估计量是一个随机变量,其数值随着所抽取的样本不同而不同,总体指标的估计值就是其估计量在某个给定样本上的取值。
二、构造估计量的方法——矩法估计(领会)
所谓矩法估计,是指用样本矩作为总体同一矩的估计量或者用样本矩的函数作为总体相应矩的函数的估计量。
也就是说,若总体指标是所考察的随机变量的某阶矩,则可用样本观测值的同阶矩作为其估计量;
若总体指标虽不是所考察随机变量的某阶矩,但却是某些矩的函数,则也可用样本相应的这些矩来构造成同样的函数作为其估计量。
总体指标的估计量通常用代表该总体指标的字母戴一个尖帽表示。
三、判断估计量优劣的标准(领会)
常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。
(一)一致性
对于总体指标θ,若其估计量
的取值随着样本容量的增大越来越接近于总体指标的真值,则该估计量 就称为总体指标θ的一致估计量,或称为相合估计量。
一致性是对估计量的最基本的要求。
可以证明,由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量,即都具有相合性。
如样本均值
是总体均值μ的一致估计量,样本比例p是总体比例P的一致统计量,样本方差S2也是总体方差σ2的一致估计量。
(二)无偏性
虽然用样本指标去估计总体指标必然存在着估计误差,但是却不应该存在系统性的偏差,即不应该存在一贯偏大或偏小的偏差。
因此,有无系统性偏差存在就可以作为判断估计量优劣的又一个标准。
对于总体指标θ若其估计量
取值的数学期望等于总体指标θ的真值,即E(
)=θ,或估计误差(
-θ)的数学期望为0,即E(
-θ)=0,则该估计量
就称为总体指标θ的无偏估计量。
若E(
-θ)=B,且B不为0,则
就是总体指标θ的有偏估计量,即B为估计偏差。
同样也可以证明,样本均值
是总体均值μ的无偏估计量,而常规的样本方差s2并不是总体方差σ2的无偏估计量。
修正的无偏样本方差的数学期望正好等于被估计的总体方差σ2。
以上结论由【例5—3】验证。
修正的无偏样本方差与常规样本方差相比,只是分母少1。
对于小样本来说,常规样本方差和无偏样本方差的值会有一定的差距,估计总体方差时应采用无偏样本方差作为其估计量。
而对于大样本来说,常规样本方差和无偏样本方差的值则相差无几,估计总体方差σ2时,用哪一个作估计量都可以。
(三)有效性
用样本指标来估计总体指标,显然估计误差越小越好,根据这一直观想法可得出判断估计量优劣的第三个标准。
对于任一总体指标θ,若存在两个无偏估计量
1和
2,其中估计量
1的估计误差平均来说小于估计量
2的估计误差,则称估计量
1比
2有效。
两个无偏估计量比较,方差较小者较为有效。
两个估计量的方差之比:
称为二者的相对效率。
若比率ω<1,则称估计量
对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为该总体指标的最佳估计量。
可以证明,样本均值
就是该总体指标均值μ的最佳无偏估计量。
有效性标准是对估计量的方差进行比较,这只能用于无偏估计量的比较判断,而不适用于有偏估计量之间或有偏估计量与无偏估计量之间的比较判断。
为了给出适用于所有估计量之间比较判断的指标,可对有效性标准进行适当的修改,即可将判断估计量是否优良的指标改为估计量的均方误差,在待估总体指标的所有估计量中,均方误差最小的估计量可认为是最好的估计量,该标准可称为均方误差最小标准。
对于两个估计,若两个均为无偏估计量,则其方差最小者也就是均方误差最小者,故方差最小者较好;
若其中一个是无偏估计量,另一个是有偏估计量,或者两个均为有偏估计量,则均方误差最小者较好,所以均方误差最小标准也是无偏性标准和有效性标准的综合。
(四)充分性
在进行总体指标的估计时,应充分利用样本资料提供的信息,以免造成浪费。
根据这一思想,可给出判断估计量优劣的第四个标准。
对于总体指标θ,若其估计量
提取了样本中包含的有关总体指标θ的全部信息,则估计量 就称为总体指标θ的充分估计量。
判断样本指标是否为某个总体指标的充分估计量,一般比较麻烦,不过在多数情况下,常用的总体指标的估计量均是充分的。
如在正态分布总体下,样本均值 是总体均值μ的充分估计量,样本方差s2同样也是总体方差σ2的充分估计量。
(五)稳健性
在样本数据的采集和整理过程中,难免会发生一些差错,造成样本数据的污染。
显然,用来估计总体指标的样本指标抗污染能力的强弱,也是衡量该估计量优劣的一个标准。
如果用来估计总体指标θ的样本估计量对样本数据的污染不敏感,也就是说,估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标θ的一个稳健统计量。
样本均值的抗污染能力很差,也就是说它不是一个稳健估计量。
样本中位数是总体均值的一个稳健估计量。
一般来说,考虑到稳健性,往往会损失一定的有效性,因此,估计量的选择需要根据样本数据的特点在有效性和稳健性二者之间进行折中。
例如,在估计总体均值时,考虑到样本均值有效性很高,但稳健性却较低,而样本中位数稳健性很高,但有效性却较低。
所以,可以将样本均值和中位数的计算方法综合折中构造一种兼具二者特点的新估计量,这类估计量主要有切尾均值等。
所谓切尾均值就是将样本数据按大小顺序排列以后,切掉序列两端的部分数据,只用序列中间的部分数据计算出的均值。
实践中常用的一种切尾均值是中均值,即将样本数据排序序列两端各25%的数据切掉,只用中间一半数据计算的均值。
现实中,在人们的主观判断起主要作用的场合,切尾均值的使用十分普遍,如在歌手的唱歌比赛中,对歌手的评分就常采用评委打分的切尾均值。
上述各个标准均是优良的估计量所应该具备的性质。
但是,正如我们已经看到的,一个估计量往往很难同时具备所有这些优良性质,这就需要我们根据研究的目的和样本数据的特点性质进行权衡选择或者进行折中选择。
【多选题】下列关于稳健性的说法正确的有( )。
A.由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量
B.样本均值是总体均值的一个稳健估计量
C.常用的总体指标的估计量均是充分的
D.两个无偏估计量比较,方差较大者较为有效
E.对于小样本来说,估计总体方差时应采用无偏样本方差作为其估计量
『正确答案』ACE
『答案解析』选项B,样本中位数是总体均值的一个稳健估计量,样本均值不是总体均值的一个稳健估计量。
选项D,两个无偏估计量比较,方差较小者较为有效。
四、估计量的标准误
样本估计值与总体指标真值之间总是存在着或大或小的抽样估计误差。
估计误差愈大,抽样估计的精确程度就愈低。
因此,有必要对抽样估计误差及其影响因素加以研究,以便把它控制到一个较小的范围之内,确保抽样估计的精度,减少决策的失误。
(一)标准误的概念(识记)
衡量抽样估计误差不能用抽样误差的直接平均,而应该采用将其平方后再平均的方法,即用样本估计量的方差或标准差。
实践中一般均采用样本估计量的标准差作为衡量抽样估计误差的指标。
样本估计量的标准差通常称为该估计量的标准误差,简称标准误。
设所要估计的总体指标为θ,其估计量为
,则此估计量的标准误就定义为:
【例5—4】在【例5—2】由6、7、8组成的总体中,总体均值为μ=7,总体方差σ2=2/3。
抽取容量为2的简单随机样本,全部9个可能样本的均值
已在表5—2的第2列中列出,由此可计算出样本均值无的方差和标准误分别为:
σ2=D(
)=E[
-E(
)]2=E(
-μ)2=(6-7)2×
1/9+(6.5-7)2+(7-7)2×
3/9+(7.5-7)2×
2/9+(8-7)2×
1/9=1/3
意义(领会):
标准误是衡量一个估计量抽样估计误差大小的尺度。
在抽样估计中,由于待估计的总体指标是未知的,所以,抽样估计误差的具体数值是不可知的,而标准误则给出了抽样估计误差的一般数值,可用于估计实际抽样估计误差的大小。
(二)标准误的计算(领会)
根据定义公式直接计算样本指标的标准误是不可能的。
因此,标准误只能通过它与其他指标的关系用间接的方式求出。
1.样本均值的标准误
样本均值
是总体均值μ的无偏估计量,所以其标准误可由其方差导出。
不过,在不同的抽样方式之下,样本均值
的方差是不相同的,因而其标准误也就不相同。
(1)若所得样本是采用有放回简单随机抽样方式抽取
有放回简单随机抽样所得的样本就是由若干个相互独立且与总体被观测变量分布完全相同的随机变量x1,x2,…,xn所组成的一个集合。
的标准误公式为:
例如,在例5-4中的6、7、8所组成的总体中,已知σ2=2/3,故对于容量为2的有放回简单随机样本,其样本均值的标准误为:
σ=(2/3/2)
=3
/3
可见,用该公式计算的结果与用样本均值标准误定义公式计算结果相同。
(2)若所得样本是采用不放回简单随机抽样方式抽取
则样本的各次抽取不独立,从而使样本观测变量x1,x2,…,xn相互也不独立,前面的观测结果对后面的观测结果有影响,所以,样本均值的方差不能像有放回抽样方式下样本均值的方差那样很容易地导出。
不放回抽样下样本均值的方差为:
例如,在上述6、7、8所组成的总体中,有N=3,σ2=2/3,若采用不放回简单随机抽样方式,则对于容量为n=2的样本来说,其样本均值的标准误为:
σ=[2/3/2(3-2)/(3-1)]
=6
/6
实践中,总体容量N一般都很大,为了计算简单,常将不放回抽样下样本均值标准误的计算公式近似地写为:
其中,n/N称为抽样比,表示总体中抽出的个体数占全部个体数的比重。
有放回抽样和不放回抽样各自样本均值的方差的比较:
(1)不放回抽样下样本均值的方差公式中比有放回抽样下样本均值的方差公式中多了一个因子(N-n)/(N-1),由于该因子小于1,即(N-n)/(N-1)<1,所以,不放回抽样下样本均值的标准误比放回抽样下样本均值的标准误小。
因此,实践中一般只采用不放回抽样的方式抽取样本,而很少采用有放回的抽样方式。
(2)当总体为无限总体时,不放回抽样下样本均值的标准误公式就简化为与有放回抽样下样本均值的标准误公式相同,故因子(N-n)/(N-1)通常称为有限总体校正因子。
不过当总体容量N较大而抽样比n/N很小时,有限总体校正因子(N-n)/(N-l)或(1—n/N)通常可忽略不计。
因此,实践中一般只使用有放回抽样的公式来计算其标准误。
由样本均值的标准误公式可以看出:
要计算出样本均值标准误的数值,必须已知总体方差
σ2的数值,但实践中,总体方差σ2一般都是未知,需用其样本方差s2来代替计算,故可得有放回抽样和不放回抽样下样本均值标准误的估计量公式分别为:
有放回抽样:
不有放回抽样:
【例5—5】某工厂收到供货方发来的一批电子元件共1000件,随机抽取了10件进行检验,测得各电子元件的使用寿命分别为1256、1307、1180、1450、1225、1198、1365、1420、1295、1304小时,试估计该批电子元件的平均使用寿命及其标准误。
由样本观测数据可计算出样本均值和样本方差分别为:
=(1256+1307+…+1304)/10=13000/10=1300(小时)
所以该批电子元件平均使用寿命的估计值为:
μ=
=1300(小时)
而样本均值的标准误,若按放回抽样计算,则其估计值为:
若按不放回抽样计算,则其估计值为:
可见,按放回抽样公式计算的标准误与按不放回抽样公式计算的标准误二者相比,数值相差很小,故为了计算简便可只使用有放回抽样的公式。
2.样本比例的标准误
总体比例P,即总体中具有某种特征的个体数与全部个体数的比例,是一个常用的总体指标。
由于总体P是两点分布总体的均值,其估计量是样本比例p,所以,估计量样本比例p的标准误公式可仿照上述总体均值估计量即样本均值的标准误公式给出。
在两点分布总体中,所考察随机变量的均值为总体比例μ=P,方差则为σ2=P(1-P)。
将此方差的表达式代入上述样本均值的标准误公式,即可得到作为总体比例估计量的样本比例P的标准误公式:
不放回抽样:
样本比例的标准误的估计公式:
【例5—6】某城市居民家庭大约有20万户,为了解居民家庭生活状况,随机抽取了300户进行调查,其中有75户和上年相比由于物价上涨过快而使生活的绝对水平下降了。
试估计该市全部居民家庭中,由于物价上涨而导致生活绝对水平下降的家庭所占的比重及其标准误。
由样本资料可计算出样本中生活绝对水平下降的家庭所占比例,即总体比例的估计值为:
n1/n=75/300=25%
二者计算结果相同,在总体容量较大且抽样比较小的情形下,完全可用有放回抽样的标准误公式代替不放回抽样的标准误公式进行计算。
(三)影响标准误的因素(领会)
估计量的标准误是样本指标用于估计总体指标所产生的抽样估计误差,影响估计量标准误的因素也就是影响抽样估计误差的因素。
显然,分析影响估计量标准误的因素,对于改进抽样方法和估计方法,以便控制抽样估计误差,具有十分重要的意义。
影响估计量的标准误数值大小的因素主要有以下三个方面:
(1)总体中各个体之间的差异程度。
对于所考察的变量来说,总体中各个体在该变量的取值之间的差异程度越大,即σ2越大,总体指标估计量的标准误的数值也就越大,抽样估计误差也就越大。
反之,若σ2较小,则估计量的标准误差也就越小。
(2)样本容量的大小。
样本容量越大,总体指标估计量的标准误就越小,抽样估计误差也就越小;
反之,样本容量越小,抽样估计误差及其标准误也就越大。
(3)抽样的方式与方法。
比较不同的抽样方式下各总体指标估计量的标准误的计算公式可以看出:
抽取样本的方式与方法也是影响估计量的标准误的重要因素。
抽样方式方法不同,总体指标估计量的标准误就会不同,抽样估计误差的大小也就不同。
由总体指标估计量的标准误的意义及上述因素分析可知:
要提高抽样估计的精确程度,就必须设法降低抽样误差及其标准误,而要降低抽样误差和标准误,就必须根据其影响因素采取相应的措施。
如事先将总体分类以减少总体内部的差异程度,或者采用更好的抽样方式以及增加样本容量等。
第四节 区间估计
一、区间估计的概念(识记)
为了给出样本估计值精度的估计(点估计做不到),就需要对未知总体指标进行区间估计。
定义(识记):
所谓区间估计,就是在事先给定的概率保证程度下,根据样本估计量的概率分布,确定出可能包含未知总体参数的某个区间,作为对未知总体参数的估计。
记待估计的未知总体指标为θ,样本估计量为
,事先给定的概率为1-α,若根据样本估计量
的概率分布可计算出一个区间
,使得该区间包含未知总体参数θ的概率等于事先给定的概率1-α,即有等式:
成立,则该区间
就称为未知总体参数的置信区间,其中
分别称为置信下限和置信上限;
而概率1-α就称为置信概率或置信度,它表明了使用此区间估计的可靠程度或把握程度,其中α称为该区间估计的风险。
在实践中,α常取0.05或0.01。
对于置信区间的含义,可以从两方面来理解。
一方面,对于反复多次的抽样来说,每次抽样都可得到一个样本,都可计算出未知总体参数θ的一个置信区间
,在这许多置信区间中,有些包含未知的总体参数θ,而有些则不包含未知总体参数θ,其中包含未知总体参数θ的区间所占比例为1-α,而不包含未知总体参数θ的区间所占比例为α。
另一方面,对某一次抽样来说,只有一个样本,只能计算出未知总体参数θ的一个置信区间
,该区间或者包含未知总体参数θ,或者不包含未知总体参数θ。
其中该区间包含θ的可能性也称把握程度或称可靠程度为1-α,而该区间不包含θ的可能性则为α。
区间估计既给出了抽样估计的可靠程度,又给出其精度。
其中置信概率是可靠程度的度量,而置信区间的长度则表达了估计的精确程度。
置信概率越大,估计的可靠程度越高;
置信区间的长度越短,估计的精度则越高。
很显然,区间估计的可靠程度和精确程度是相互矛盾的,要提高可靠程度就要增大置信概率,从而就要增加置信区间的长度使估计的精
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 05 抽样估计 抽样 估计