第5章 抽样与参数统计.docx
- 文档编号:30204643
- 上传时间:2023-08-07
- 格式:DOCX
- 页数:25
- 大小:973.42KB
第5章 抽样与参数统计.docx
《第5章 抽样与参数统计.docx》由会员分享,可在线阅读,更多相关《第5章 抽样与参数统计.docx(25页珍藏版)》请在冰豆网上搜索。
第5章抽样与参数统计
第五章抽样与参数估计
学习内容
一、抽样推断概述
二、抽样分布及其应用
三、常见的抽样分布
四、参数估计
五、区间估计的计算
学习目标
1.了解抽样和抽样分布的基本概念。
2.理解抽样分布与总体分布的关系。
3.了解点估计的概念和估计量的优良标准。
4.掌握总体均值、总体比例和总体方差的区间估计。
一、抽样推断概述
①推断统计的内容
②抽样推断的过程
统计推断的基本假定
a)总体看作是一个随机变量X,其概率分布为f(x)。
b)样本看作是n个独立的随机变量(X1,X2,…,Xn),每个都具有与总体X相同的分布。
c)样本中每个个体必须取自同一总体,X1,X2,…,Xn相互独立。
统计推断涉及的概念
参数与统计量
–参数:
描述总体分布特征的量,如平均数μ,标准差σ。
–统计量:
由样本观察值算出的量,如,S2,S。
–统计量是随机变量。
③抽样分布及其形成过程
抽样分布(概念要点)
所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布。
抽样分布是一种理论概率的分布。
抽样分布的结果来自容量相同的所有可能样本。
单选题
样本平均数和总体平均数()
–A、前者是一个确定值,后者是随机变量
–B、前者是随机变量,后者是一个确定值
–C、两者都是随机变量
–D、两者都是确定值
④抽样推断的理论基础
(1)大数定律
a)大数定律在统计中是指一切关于大量随机现象之平均结果稳定性的定理。
–尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。
b)为整个推断统计提供了最基本的理论依据。
猜硬币赌局
赌局1:
–掷10次硬币,赌正面朝上的频率为0.4到0.6次。
赌局2:
–掷100次硬币,赌正面朝上的频率0.4到0.6次。
赌局3:
–掷1000次硬币,赌正面朝上的频率0.4到0.6次。
贝努利大数定律
设nA是n次独立试验中事件A发生的频数;p表示事件A在每次试验中发生的概率,则对于任意正数є有:
切比雪夫大数定律
(2)中心极限定理
–设从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,多次抽样得到的样本均值近似服从均值为μ、方差为σ2/n的正态分布。
(一)大数定律揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律。
(二)中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布是以正态分布为极限的定理。
(三)中心极限定理则说明了许多随机变量的分布是正态或近似正态的。
棣莫弗-拉普拉斯定理
a)随机变量X取A的概率为p、取非A的概率为q=1-p时,抽取n个单位组成样本。
b)A出现的次数k组成的随机变量叫做服从二项分布的随机变量。
二、抽样分布及其应用
1.样本均值的抽样分布
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果如下表:
所有样本均值的均值和方差:
式中:
M为样本数目。
比较及结论:
1.样本均值的均值(数学期望)等于总体均值。
2.样本均值的方差等于总体方差的1/n。
样本均值的分布与总体分布的比较
在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。
一种理论概率分布。
推断总体均值μ的理论基础。
样本均值的抽样分布与中心极限定理
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值
也服从正态分布,
的数学期望为μ,方差为σ2/n,即
~N(μ,σ2/n)。
核心结论:
样本均值的数学期望
;样本均值的方差
样本均值
的分布形式。
–与总体分布有关
–总体为正态分布,抽样分布也为正态,与样本容量无关。
a)与样本量有关
–总体不是正态分布,样本量越大(n≥30),抽样分布越接近正态分布。
抽样分布与总体分布的关系
2.样本比例的抽样分布
比例:
总体(或样本)中具有某种属性的单位与全部单位总数之比。
–不同性别的人与全部人数之比。
–合格品(或不合格品)与全部产品总数之比。
1)容量相同的所有可能样本的样本比例的概率分布。
2)当样本容量很大时,样本比例的抽样分布可用正态分布近似。
3)是一种理论概率分布。
4)推断总体比例π的理论基础。
核心结论
样本比例的数学期望:
;样本比例的方差:
–重复抽样
3.样本方差的抽样分布
正态总体样本方差的抽样分布
设总体服从正态分布N~(μ,σ2),X1,X2,…,Xn为来自该正态总体的样本,则样本方差s2的分布为:
将χ2(n–1)称为自由度为(n-1)的卡方分布。
样本方差抽样分布(χ2分布)的形成过程
4.抽样分布的应用
[例1]BTL商店的经理想知道供货商给他的电视质量是否低于平均水平。
他的研究表明电视机置换时间的均值为8.2年,标准差为1.1年。
然后他随机抽取50台过去售出的电视机,发现这些电视机平均置换时间为7.8年。
计算这50个随机抽取的电视机的平均置换时间为7.8年或更短的概率。
[例2]《娱乐报道》杂志发起了一项旨在增加订阅的有奖活动。
在过去,收到有奖活动参与材料的人中有26%最终参与了竞赛,订阅了杂志。
当有奖活动的参与材料发放给500个随机挑选的住户时,估计新增订阅结果的数量在125~150(包括120和150)的概率。
抽样分布应用练习
某高校学生的入学考试成绩均值μ为550分,标准差σ为250分,若从中随机抽取100名,求:
–样本平均成绩的数学期望和标准差值
–分析样本均值的抽样分布
–样本平均成绩在520分到580分之间的概率有多大?
–样本平均成绩小于580分的概率有多大?
三、常见的抽样分布
1.正态分布
a)正态分布的数理统计学概念。
如果随机变量(X)的概率密度函数为:
,则该随机变量服从正态分布。
b)式中σ为总体标准差;μ为总体均数;π为圆周率,即3.14159···;e为自然对数的底,即2.71828···。
密度函数的特性
对称性
非负性
2.卡方分布
设随机变量相互独立,且都服从标准正态分布,则随机变量:
卡方分布的性质
a)
恒为正值。
b)卡方分布的期望值是自由度n,方差为2n。
c)卡方分布具有可加性。
卡方分布与正态分布的关系
3.T分布
T分布的性质
a)不同的样本容量,t分布有所不同。
b)大致对称的钟型形状,但对于小样本,它显示出更大的方差(n/(n-2))。
c)分布的均值为=0。
d)分布的标准差随着样本容量的变化而变化,但它是大于1的。
e)随着样本容的增大,趋近于标准正态分布。
当n>30时,二者之间的差异就很小了。
正态分布、卡方分布与T分布的关系
多选题
T分布具有以下特征()
–A、均值取决于自由度,方差等于1
–B、均值为零,方差小于1
–C、均值为零,方差大于1
–D、方差随自由度的增加而降低
–E、方差随自由度的增加而增加
4.F分布
F分布的性质
a)不对称性。
b)和卡方分布一样,分布的值也是非负的。
c)分布的准确形状取决于两个不同的自由度。
四、参数估计
①参数估计的方法
被估计的总体参数
1.点估计(概念要点)
a)从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。
–例如:
用样本均值作为总体未知均值的估计值就是一个点估计。
b)点估计没有给出估计值接近总体未知参数程度的信息。
c)点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。
2.区间估计(概念要点)
a)根据一个样本的观察值给出总体参数的估计范围。
b)给出总体参数落在这一区间的概率。
–例如:
总体均值落在50~70之间,置信度为95%。
3.置信区间(confidenceinterval)
a)统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。
b)用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。
c)我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。
4.置信水平
a)总体未知参数落在区间内的概率。
b)表示为(1-α)%
–α为显著性水平,是总体参数未在区间内的概率。
c)常用的置信水平值有99%、95%、90%。
–相应的α为0.01、0.05、0.10。
置信区间与置信水平
回顾:
经验法则(落在总体均值某一区间内的样本)
5.影响区间宽度的因素
a)数据的离散程度,用σ来测度。
b)
样本容量
c)置信水平(1-α),影响Z的大小。
判断题
1)有95%的样本均值会落在总体真值μ的1.96个标准差的范围之内。
2)有95%的样本均值所构造的1.96个标准差的区间会包括总体真值μ。
3)某个样本均值所构造的1.96个标准差的区间包含总体真值μ的概率约为95%。
6.评价估计量的标准
1)估计量——用于估计总体某一参数的随机变量。
–如样本均值,样本比例、样本中位数等。
–例如:
样本均值就是总体均值μ的一个估计量。
–如果样本均值x=3,则3就是μ的估计值。
2)理论基础是抽样分布。
无偏性:
估计量抽样分布的数学期望等于被估计的总体参数。
有效性:
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。
一致性:
随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
单选题
①无偏性是指()
–A、抽样指标的平均数等于被估计的总体指标
–B、当样本容量n充分大时,样本指标充分靠近总体指标
–C、随着n的无限增大,样本指标与未知的总体指标之间的离差任意小的可能性趋于实际必然性
–D、作为估计量的方差比其他估计量的方差小
②若甲估计量的方差小于乙估计量的方差,则称()
–A、甲是无偏估计量
–B、乙是一致估计量
–C、乙比甲有效
–D、甲比乙有效
五、区间估计的计算
✧区间估计的内容
✧
区间估计的计算
a)总体均值的区间估计
b)总体比率的区间估计
c)样本容量的确定
1.总体均值的区间估计(正态总体,方差σ2已知)
a)假定条件
–总体服从正态分布,且总体方差(σ2)已知。
–不是正态分布,可以由正态分布来近似(n≥30)。
b)
使用正态分布统计量Z:
c)总体均值μ在1-α置信水平下的置信区间为:
[例]某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平长度为21.4
mm。
已知总体标准差σ=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。
2.总体均值的区间估计(正态分布,方差σ2未知,小样本)
a)假定条件:
–总体方差(σ2)未知。
–总体必须服从正态分布。
–小样本(n<30)。
b)使用t分布统计量:
c)总体均值μ在1-α置信水平下的置信区间为:
[例]从一个正态总体中抽取一个随机样本,n=25,其均值x=50,标准差s=8。
建立总体均值m的95%的置信区间。
[例]已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。
建立该批灯泡平均使用寿命95%的置信区间。
(16只灯泡使用寿命的数据:
1510、1520、1480、1500、1450、1480、1510、1520、1480、1490、1530、1510、1460、1460、1470、1470)
3.总体均值的区间估计(大样本,方差σ2未知)
a)假定条件
–总体方差(σ2)未知。
–大样本(n≥30)。
b)
使用正态分布统计量z:
c)总体均值μ在1-α置信水平下的置信区间为:
【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。
试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。
【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。
试建立投保人年龄90%的置信区间。
计算题
①假设已知某品牌电视机显像管寿命的标准差是σ=500,但是其寿命均值是未知的。
不过,显像管寿命可以假设为近似服从正态分布。
一个n=15的样本的寿命均值=8900小时。
计算总体均值的:
(a)95%置信区间;
(b)90%置信区间。
②假设你希望估计去年某种消费品在每家零售店里的平均销售额。
零售店数量很多。
如果总体是正态分布的且已知:
=$3425,s=$200,n=25;
试计算其95%置信区间。
4.总体比率的区间估计
a)假定条件
–总体服从二项分布。
–大样本(nP>=5,n(1-P)>=5)。
b)
使用正态分布统计量Z:
c)总体比例P的置信区间为:
【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。
在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。
试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。
【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。
试以95%的置信水平估计该城市下岗职工中女性比率的置信区间。
5.样本容量的确定
a)确定样本容量的公式根据“允许误差”的公式推导而来。
b)
抽样平均误差即样本均值的标准差
–样本容量越大,抽样平均误差越小。
c)
允许误差:
d)估计总体均值时样本容量n为:
e)样本容量n与总体方差σ2、允许误差E、可靠性系数z或t之间的关系为:
–与总体方差成正比。
–与允许误差成反比。
–与可靠性系数成正比。
单选题
在其他条件不变情况下,要使样本均值的抽样平均误差为原来的1/3,则样本单位数必须()
–A、增大到原来的3倍
–B、增大到原来的9倍
–C、增大到原来的6倍
–D、也是原来的1/3
【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?
【例】一家广告公司想估计某类商店去年所花的平均广告费用有多少。
经验表明,总体方差约为1800000元。
如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?
估计总体比率时样本容量的确定
根据比率区间估计公式可得样本容量n为:
若总体比例π未知时,可用样本比例^p来代替。
【例】根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 抽样与参数统计 抽样 参数 统计