抽样分布和估计讲义.pptx
- 文档编号:30811253
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:72
- 大小:509.13KB
抽样分布和估计讲义.pptx
《抽样分布和估计讲义.pptx》由会员分享,可在线阅读,更多相关《抽样分布和估计讲义.pptx(72页珍藏版)》请在冰豆网上搜索。
统计学家视数据为资源,并且试图从数据中看出平常人所看不到的景致来。
1,第一讲内容复习,统计学的定义、分类;认识数据的第一步:
你得到的是什么类型的数据?
利用图表展示数据中的信息;运用指标刻画数据的某些特征和程度;使用EXCEL来描述数据;,2,第一讲作业以及案例讨论,3,第二讲,抽样分布和估计2001年9月22日,4,统计推断的基本概念,总体:
有限总体、无限总体;样本;统计推断的任务:
通过样本的统计量来了解总体的参数。
为什么需要抽样:
1)总体无法得到;2)时间成本不允许;3)实验具有破坏性。
5,统计推断的基本思想,1)选用一个概率模型来刻画总体,使用样本对模型做出推断;2)样本的获取的可能性依赖于你选用的模型;根据这种可能性来分析我们由部分来认识总体所可能犯的错误(风险)。
6,统计推断的内容之一,估计参数点估计和区间估计点估计的例子居民家庭年收入,7,统计推断内容之二,假设检验:
是否可以选用这个模型?
例子:
是否可以使用模型N(570,306)来刻画所有居民的家庭年收入?
思想:
如果该模型是好的,那么和570相差很多的可能性不能太大。
8,简单随机抽样,有限总体的简单随机抽样:
等概率抽样;有放回抽样:
独立性无放回抽样:
非独立性抽样方法:
利用随即数表利用Excel,9,随机数表的使用,771912586055204734178392069486762982667889334339389556729380570991052809925897734133596244159874696267342775925765195508531221602584299533106738084249372036451651530370694021661374,10,无限总体的简单随机抽样:
独立性;例子:
掷硬币,11,样本和总体分布,例子:
薯片一个箱子中有10000包薯片,其中50%标价5元,30%标价10元,10%标价15元,10%标价30元。
12,点估计的方法,估计量(统计量);估计值。
基于一定的准则求最好的估计量。
极大似然法则;矩估计;最小二乘估计等,13,抽样分布,样本不同,值也不同。
那么取不同值的可能性分别是什么?
的概率分布称作它的抽样分布。
抽样分布在统计推断中的中心地位。
抽样分布取决于总体的分布(模型)以及抽样的方式。
抽样方式总体分布=抽样分布,14,样本均值的抽样分布(无限总体),如果总体服从,那么简单随机样本的均值服从正态分布如果样本容量n非常大,而且总体的期望是,方差是2+,那么简单随机样本的均值近似服从正态分布(中心极限定理),15,样本比率的抽样分布(无限总体),小样本情况x服从二项式分布B(n,p).大样本情况,按照中心极限定理,近似地,16,正态分布的图形,17,有限总体的修正系数,设N是总体中个体的个数,n是样本容量,那么样本均值的方差是:
样本比率的方差是:
注:
如果N相比n大很多,比如n/N5%,可以视为无限总体。
18,样本方差的抽样分布,如果是来自正态总体的一个随机样本,定义样本方差为:
19,认识卡方分布,20,方差未知时样本均值的抽样分布,正态总体,2未知,使用样本方差s2来替代2,则样本均值满足:
n30时,可以用标准正态分布近似。
21,正态分布和t分布的比较,22,估计的误差,不能以个别估计值作为评价准则;估计的误差:
23,对估计量的评价,无偏性:
偏差是零;有效性:
方差最小;一致性:
样本容量增加会降低估计误差。
样本均值(比率)是对总体均值(比率)的一个无偏的、有效的、一致的估计量。
24,将概率模型引入统计推断中来刻画总体,可以使得我们能够测量和控制由部分(样本)来推断总体时所犯的错误。
25,EstimatePopulation,Parameter.,withSample,Statistic,Mean,Proportion,p,Variance,s,2,PopulationParametersEstimated,2,Difference,-,1,2,x-x,1,2,_,_,_,26,的抽样分布:
1)正态总体时,,27,2)非正态总体时,大样本情况(n30),28,S2的抽样分布:
当总体是正态分布时,,29,的抽样分布:
30,有限总体时样本均值和样本比率的标准误差,有限总体修正系数。
31,联合食品公司的案例,针对“联合食品公司”的案例(P.44案例2-1),我们假设调查的100个客户组成一个简单随机样本。
尝试回答下面的问题:
1)所有客户一次购买金额的平均值是多少?
2)所有使用信用卡的客户一次购买金额的平均值是多少?
3)使用信用卡的客户占的比例是多少?
32,33,34,1)所有客户一次购买金额的平均值是多少?
(29.4449)2)所有使用信用卡的客户一次购买金额的平均值是多少?
(40.8768)3)使用信用卡的客户占的比例是多少?
(0.22),35,我们的估计值离真值有多远?
我们希望通过样本的信息给出一个范围,使这个范围按足够大的概率包含我们所感兴趣的参数。
如何寻找K和L,使得以95%的概率成立:
36,抽样误差:
无偏点估计值与总体参数之差的绝对值。
37,样本均值的抽样分布,z,-z,1-,38,大样本且已知的情况,39,理解置信区间的含义,抽取100个样本,计算出100个平均值和100个区间,它们当中至少有(1-)*100个包含了未知的总体均值。
因此,可以以(1-)的程度确信落在每一个区间里面。
边际误差:
40,ConfidenceIntervals,IntervalsExtendfrom,(1-)%ofIntervalsContain.%DoNot.,1-,/2,/2,X,_,x,_,Intervals&LevelofConfidence,SamplingDistributionoftheMean,to,41,联合食品公司的例子,如果已知所有消费者一次购买金额的标准差是22,那么一次购买平均金额的一个95%的置信区间是:
29.44491.96*(22/10)或者(25.1329,33.7569),其中边际误差=4.312.问题:
对这个区间的含义你知道了什么?
怎么可能知道标准差?
42,大样本且未知的情形,43,联合食品公司的例子,所有顾客一次购买金额的平均值的95%的置信区间:
29.44491.96*(20.4162/10)或者(25.44333,33.44506)问题:
对使用信用卡的顾客一次购买金额的平均值能否类似进行区间估计?
44,小样本且未知的情形,45,联合食品公司的例子,所有持信用卡的顾客一次购买金额的平均值的95%的置信区间是:
问题:
1)你获得上述结论时对总体作了什么假定?
是否合理?
2)如何使用EXCEL解决该问题?
46,小样本且已知的情形,你自己可以解决这一问题吗?
47,大样本下总体比率p的区间估计,48,联合食品公司的例子,使用信用卡支付的顾客的比率的95%的置信区间是多少?
问题:
是否符合大样本的条件?
进一步的问题:
如果嫌精度不够怎麽办?
49,DataVariationSampleSizenLevelofConfidence(1-),IntervalsExtend,?
1984-1994T/MakerCo.,影响区间长度的因素,50,90%Samples,95%Samples,ConfidenceIntervals,99%Samples,X,_,51,样本容量的确定
(1),给定边际误差E和置信系数1-,问题是:
确定样本容量n使得总体均值(比率)的1-水平的置信区间长度不超过2E?
(该问题有什么实际意义?
),52,样本容量的确定
(2),怎么获得?
1)用以前相同或类似的样本的样本标准差代替;2)用试验调查的方法选择初始样本,用该样本的样本标准差代替;3)对进行判断或者猜测:
比如全距的1/4作为估计。
为什么用正态分布的/2分位数而不用t分布?
53,样本容量的确定(3),对于总体比率来说:
如何确定p?
1)类似对的确定方法;2)使用p=0.5,此时p(1-p)最大,从而高估样本容量。
54,联合食品公司的例子,为使得所有顾客一次购买金额的平均值的95%的置信区间长度不超出6美圆,需至少采用多大的样本?
E=?
=?
(全距=77.07)n=(1.96*77.07/4)2/9=158.46159,55,联合食品公司的例子,为了使得对持信用卡购买的顾客比率p的95%的置信区间长度不超过0.2,样本至少多大?
E=?
P=?
N=(1.96)2*0.5*0.5/0.12=96.0497,56,区间估计内容小结,置信区间的含义;从抽样分布求置信区间;给定精度,确定样本大小。
57,Mean,isunknown,Population,RandomSample,Iam95%confidentthatisbetween40&60.,Mean=50,EstimationProcess,Sample,58,对总体模型的推断另一种方式:
假设检验,参数估计的思路:
选择一个合适的模型;假设检验的思路:
检验一个给定的模型。
59,Population,Assumethe,population,meanageis50.,(NullHypothesis),REJECT,TheSample,MeanIs20,Sample,NullHypothesis,HypothesisTestingProcess,No,notlikely!
60,从一个例子看假设检验的思路,摸球试验:
有放回地在一个袋子中连续摸6次,都是红球,你能否接受“袋子中一半是红球一半是白球”的说法?
为什么?
如果我接受你的说法(假设),那么我看到的现象(样本)出现的可能性是多少?
如果这种可能性太小,会是什么情况?
61,假设检验的基本概念,H0:
一半红球一半白球。
(或者p=0.5);H1:
红球白球不是各一半。
(或者p不是0.5)。
原假设;备择假设;选择的态度:
拒绝?
接受?
(Tobeornottobe,)更多的例子,简单假设和复合假设:
62,拒绝域,拒绝域:
哪些样本出现后,你会拒绝原假设?
你建立你的拒绝域的根据是什么?
抽样分布。
所谓检验就是选择一个拒绝域。
为什么这是一个问题?
63,你会犯什么错误?
64,H0:
Innocent,JuryTrial,Hypothesis,Test,ActualSituation,ActualSituation,Verdict,Innocent,Guilty,Decision,H,0,True,H,0,False,Innocent,Correct,Error,DoNot,Reject,H,0,1-,a,TypeII,Error(,b,),Guilty,Error,Correct,Reject,H,0,TypeI,Error,(,a,),Power,(1-,b,),ResultPossibilities,65,a,b,Reduceprobabilityofoneerrorandtheotheronegoesup.,a&bHaveanInverseRelationship,66,Neymann-Pearson原则,找一个不犯错误的检验!
?
N-P原则:
控制犯第一类错误的概率。
显著水平:
犯第一类错误的最大概率。
启示:
拒绝原假设、接受原假设?
设置原假设和备择假设的学问:
一种药品中含某元素超过0.01克为不合格。
如何设置原假设?
H0:
该药品合格;H0:
该药品不合格。
67,一个例子,所有联合食品公司的顾客一次购买金额的平均值是35美圆?
H0:
=35.H1:
?
对容量为100的样本,给定显著水平=0.05,选择拒绝域为满足下列条件的样本组成:
68,一个例子(续),计算样本均值得到29.4449,落入拒绝域,所以拒绝原假设。
该检验犯第一类错误的概率是多少?
如果H0是正确的,一个样本落在该拒绝域里面的概率是多少?
如何确定?
69,本讲总结,统计推断的任务、基本思想和内容;简单随机抽样;抽样分布及其在统计推断中的作用;点估计及其评价,70,本讲总结,区间估计是重点;区间估计需要掌握的东西;假设检验的概念和思路;选择检验的原则;后面的话题。
71,作业,教材211页补充练习59、60、64、66教材第233页,补充练习45、54、59。
案例8-2,小组讨论。
72,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 分布 估计 讲义