统计学第6章抽样与参数估计.docx
- 文档编号:30363850
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:18
- 大小:20.14KB
统计学第6章抽样与参数估计.docx
《统计学第6章抽样与参数估计.docx》由会员分享,可在线阅读,更多相关《统计学第6章抽样与参数估计.docx(18页珍藏版)》请在冰豆网上搜索。
统计学第6章抽样与参数估计
第6章抽样与参数估计
第6章抽样与参数估计
6.1抽样与抽样分布
6.2参数估计的基本方法
6.3总体均值的区间估计
6.4总体比例的区间估计
6.5样本容量的确定
学习目标
理解抽样方法与抽样分布
估计量与估计值的概念
点估计与区间估计的区别
评价估计量优良性的标准
总体均值的区间估计方法
总体比例的区间估计方法
样本容量的确定方法
参数估计在统计方法中的地位
统计推断的过程
6.1抽样与抽样分布
什么是抽样推断
概率抽样方法
抽样分布
抽样方法
抽样方法
概率抽样
(probabilitysampling)
也称随机抽样
特点
按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计算出来的
当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
简单随机抽样
(simplerandomsampling)
从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础
特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其它辅助信息以提高估计的效率
分层抽样
(stratifiedsampling)
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
系统抽样
(systematicsampling)
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
优点:
操作简便,可提高估计的精度
缺点:
对估计量方差的估计比较困难
整群抽样
(clustersampling)
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差
抽样分布
总体中各元素的观察值所形成的分布
分布通常是未知的
可以假定它服从某种分布
总体分布
(populationdistribution)
一个样本中各观察值的分布
也称经验分布
当样本容量n逐渐增大时,样本分布逐渐接近总体的分布
样本分布
(sampledistribution)
抽样分布的概念
(samplingdistribution)
抽样分布是指样本统计量的分布,即把某种样本统计量看作一个随机变量,这个随机变量的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.
统计量:
样本均值,
样本比例,
样本方差等
样本统计量的概率分布
是一种理论概率分布
随机变量是样本统计量
样本均值,样本比例,样本方差等
结果来自容量相同的所有可能样本
提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
对抽样分布的理解
抽样分布:
即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布
样本均值的抽样分布
容量相同的所有可能样本的样本均值的概率分布
一种理论概率分布
进行推断总体均值的理论基础
样本均值的抽样分布
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
4个个体分别为x1=1、x2=2、x3=3、x4=4。
总体的均值、方差及分布如下
均值和方差
样本均值的抽样分布
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果为
样本均值的抽样分布
(例题分析)
计算出各样本的均值,如下表。
并给出样本均值的抽样分布
样本均值的分布与总体分布的比较
(例题分析)
=2.5
σ2=1.25
总体分布
抽样分布-样本平均数的分布
某班组5个工人的日工资为34、38、42、46、50元。
=42
2=32
现用重置抽样的方法从5人中随机抽2个构成样本。
共有52=25个样本。
如右图。
验证了以下两个结论:
抽样平均数的标准差
反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用
表示。
抽样分布--样本平均数的分布
样本均值的抽样分布
与中心极限定理
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。
即X~N(μ,σ2/n)
中心极限定理
(centrallimittheorem)
中心极限定理:
设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
中心极限定理
(centrallimittheorem)
非正态总体的均值的抽样分布趋于正态分布的过程
补充:
大数定理
大数定理
当样本容量n充分大时,可以用样本平均估计总体平均。
当试验次数n充分大时,可以用频率代替概率。
大数定理的意义:
个别现象受偶然因素影响,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义。
极限定理:
包括大数定理与中心极限定理两类
大数定理:
体现偶然性与必然性的辨证关系,偶然性是必然性的表现形式.频率稳定于概率,均值稳定于数学期望.
中心极限定理:
研究在什么条件下,随机变量的和的分布可以近似正态分布.
极限定理是我们作大量社会调查具有科学性之所在,它从理论上表明了抽样调查的科学性,也为抽样调查的定量分析奠定了基础.
抽样分布与总体分布的关系
样本均值的数学期望
样本均值的方差
重复抽样
不重复抽样
P110说明
样本均值的抽样分布的特征p109
(数学期望与方差)
样本均值的抽样分布的特征
(数学期望与方差)
比较及结论:
1.样本均值的均值(数学期望)等于总体均值
2.样本均值的方差等于总体方差的1/n
样本比例的抽样分布
总体(或样本)中具有某种属性的单位与全部单位总数之比
不同性别的人与全部人数之比
合格品(或不合格品)与全部产品总数之比
总体比例可表示为
样本比例可表示为
比例
(proportion)
容量相同的所有可能样本的样本比例的概率分布
当样本容量很大时,样本比例的抽样分布可用正态分布近似
一种理论概率分布
推断总体总体比例的理论基础
样本比例的抽样分布
样本比例的数学期望
样本比例的方差
重复抽样
不重复抽样
样本比例的抽样分布的特征
(数学期望与方差)
6.2参数估计的基本方法
估计量与估计值
点估计与区间估计
评价估计量的标准
估计量与估计值
估计量:
用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等
例如:
样本均值就是总体均值的一个估计量
参数用表示,估计量用表示
估计值:
估计参数时计算出来的统计量的具体值
如果样本均值x=80,则80就是总体参数的估计值
估计量与估计值p111
(estimator&estimatedvalue)
点估计与区间估计
参数估计的方法
估计方法
点估计
区间估计
一个总体参数的估计
点估计
(pointestimate)
用样本的估计量直接作为总体参数的估计值
例如:
用样本均值直接作为总体均值的估计
例如:
用两个样本均值之差直接作为总体均值之差的估计
2.没有给出估计值接近总体参数程度的信息.实际中一次抽样,不可能指望样本估计量恰好等于总体参数的值.
区间估计
(intervalestimate)
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差
而得到的
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
比如,某班级平均分数在75~85之间,置信水平是95%
评价估计量的标准
无偏性
(unbiasedness)
无偏性:
估计量抽样分布的数学期望等于被
估计的总体参数
有效性
(efficiency)
有效性:
对同一总体参数的两个无偏点估计量
有更小标准差的估计量更有效
一致性
(consistency)
一致性:
随着样本容量的增大,估计量的
值越来越接近被估计的总体参数
6.3总体均值的区间估计
区间估计的基本原理
正态总体或大样本的估计
正态总体小样本的估计
区间估计的基本原理
区间估计的图示
将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平
表示为(1-
为是总体参数未在区间内的比例
常用的置信水平值有99%,95%,90%
相应的为0.01,0.05,0.10
置信水平
由样本统计量所构造的总体参数的估计区间称为置信区间
统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间
置信区间
(confidenceinterval)
置信区间与置信水平
均值的抽样分布
(1-)%区间包含了
%的区间未包含
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
参数区间估计
参数区间估计的含义:
估计总体参数的区间范围,并给出区间估计成立的概率值。
其中:
1-α(0<α<1)称为置信度;α是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。
如何理解:
例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。
这里,95%这个值被称为置信水平(或置信度)。
一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?
错误的理解:
60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。
正确的理解:
如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。
真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。
但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。
如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:
该班同学平均成绩的置信区间是60-80分,置信度为95%。
区间估计
估计未知参数所在的可能的区间。
评价准则
随机区间
置信度
精确度
随机区间
包含
(即可靠程度)越大越好。
的概率
的平均长度
(误差范围)越小越好
一般形式
或
总体参数
估计值
误差范围
△:
一定倍数的抽样误差
例如:
抽样误差
一定时,
越大,
概率(可靠性)大;
随之增大,
精确度就差。
总体均值的区间估计
(正态总体、2已知,或非正态总体、大样本)
总体均值的区间估计
假定条件
总体服从正态分布,方差
(2)已知
如果不是正态分布,可由正态分布来近似(n30)
总体均值在1-置信水平下的置信区间为
总体均值的区间估计
(例题分析)
【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。
已知总体标准差为=0.15cm。
试估计该批零件平均长度的置信区间,置信水平为95%。
解:
已知X~N(,0.152),n=9,1-=95%,z/2=1.96总体均值在1-置信水平下的置信区间为
该批零件平均长度的置信区间在21.302cm~21.498cm之间
总体均值的区间估计
(例题分析)
【例】在某天生产的500袋食品中,按不重复抽样方法随机抽取25袋进行检查,测得平均每袋的重量为996g。
已知该种袋装食品的重量服从正态分布,且标准差为20g。
试估计该种食品平均重量的置信区间,置信水平为95%。
解:
已知X~N(,202),n=25,1-=95%,z/2=1.96
总体均值在1-置信水平下的置信区间为
该种食品平均重量的置信区间为988.35g~1003.65g之间
总体均值的区间估计
(正态总体、2未知、小样本)
总体均值的区间估计
(小样本)
1.假定条件
总体服从正态分布,且方差
(2)未知
小样本(n<30)
使用t分布统计量
总体均值在1-置信水平下的置信区间为
t分布
分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。
一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大,分布也逐渐趋于正态分布
总体均值的区间估计
(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。
建立该批灯泡平均使用寿命95%的置信区间
总体均值的区间估计
(例题分析)
解:
已知X~N(,2),n=16,1-=95%,t/2=2.131。
根据样本数据计算得:
总体均值在1-置信水平下的置信区间为
该种灯泡平均使用寿命的置信区间为1476.8小时~1503.2小时
总结:
如何选用统计量p120
6.4总体比例的区间估计
大样本重复抽样时的估计方法
大样本不重复抽样时的估计方法
总体比例的区间估计
(重复抽样)
1.假定条件
总体服从二项分布
可以由正态分布来近似
使用正态分布统计量Z
3.总体比例在1-置信水平下的置信区间为
总体比例的区间估计
(不重复抽样)
1.假定条件
总体服从二项分布
可以由正态分布来近似
使用正态分布统计量Z
3.总体比例在1-置信水平下的置信区间为
总体比例的区间估计
(例题分析)
【例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。
试以95%的置信水平估计该城市下岗职工中女性比例的置信区间
解:
已知n=100,p=65%,z/2=1.96
该城市下岗职工中女性比例的置信区间为55.65%~74.35%
总体比例的区间估计
(例题分析)
【例】某企业共有职工1000人。
企业准备实行一项改革,在职工中征求意见,采取不重复抽样方法随机抽取200人作为样本,调查结果显示,有150人表示赞成该项改革,50人表示反对。
试以95%的概率确定赞成改革的人数比例的置信区间
解:
已知n=100,p=75%,z/2=1.96
该企业职工中赞成改革的人数比例的置信区间为69.63%~80.37%之间
6.5样本容量的确定
估计总体均值时样本容量的确定
估计总体比例时样本容量的确定
估计总体均值时样本容量的确定
估计总体均值时样本容量n为
重复抽样
不重复抽样
样本容量n与总体方差成正比,与边际误差成反比,与可靠性系数成正比
估计总体均值时样本容量的确定
估计总体均值时样本容量的确定
(例题分析)
【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?
估计总体均值时样本容量的确定
(例题分析)
解:
已知=2000,E=400,1-=95%,z/2=1.96
12/22置信度为90%的置信区间为
即应抽取97人作为样本
估计总体比例时样本容量的确定
根据比例区间估计公式可得样本容量n为
重复抽样
不重复抽样
估计总体比例时样本容量的确定
E的取值一般小于0.1
未知时,可取最大值0.5
其中:
估计总体比例时样本容量的确定
(例题分析)
【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
解:
已知=90%,1-=95%,Z/2=1.96,E=5%
应抽取的样本容量为
应抽取139个产品作为样本
本章小结
抽样与抽样分布
参数估计的基本方法
总体均值的区间估计
总体比例的区间估计
样本容量的确定
结束
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 抽样 参数估计