第六章 样本及抽样分布.pptx
- 文档编号:30809805
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:64
- 大小:612.53KB
第六章 样本及抽样分布.pptx
《第六章 样本及抽样分布.pptx》由会员分享,可在线阅读,更多相关《第六章 样本及抽样分布.pptx(64页珍藏版)》请在冰豆网上搜索。
什么是统计学?
统计学是一门关于数据资料的收集、整理、分析和推断的科学。
但人们常常将统计这一概念误解为大量数据资料的收集以及对这些数据作一些简单的运算(如求和、求平均值、求百分比等)或用图表、表格等形式把它们表示出来;其实这些工作仅是统计学工作的非主要部分。
统计学还包括怎样设计试验、采集数据以及怎样对获得的数据进行分析推断等其它许多工作。
随着研究随机现象规律性的科学概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断,和预测;将这些研究的某些结果加以归纳整理,逐渐形成一定的数学概型,这些组成了数理统计的内容。
数理统计的方法及考虑的问题不同于一般的资料统计,它更侧重于应用随机现象本身的规律性来考虑资料的收集整理和分析,从而找出相应的随机变量的分布律或它的数字特征。
由于大量的随机试验能呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来,但是实际上所允许的观察永远只能是有限的,有时甚至是少量的。
因此我们所关心的问题是怎样,有效地利用有限的资料,便能去掉那些由于资料不足所引起的随机干扰,而把那些实质性的东西找出来。
一个好的统计方法就在于能有效地利用所获得的资料,尽可能作出精确而可靠的结论。
在数理统计里,不是对所研究的全部对象进行观察,而是抽取其中的部分进行观察、获得数据(即采样),并通过这些数据来对所研究的全体进行推断。
由于推断是基于采样数据,而采样数据又不能包含研究对象的全部信息,因此由此所获得的结论必然会包含不定性,概率是这种不定性的度量。
造成不定性的原因可分为两类:
(1)由于采样数据的随机性所引起的不定性;
(2)由于,我们对系统真实状态的“无知”造成的不定性。
数理统计工作者的任务就是要分辨这两种不定性。
下面举一例来说明。
某元件厂生产了一批三极管,共一百万只,每十只装成一盒,共得十万盒。
现有某仪器厂需向该元件厂购买此三极管一百盒,准备安装在某种仪表上。
每台仪表需用此三极管十只,恰好是一台仪表需一盒三极管,一百盒可供装一百台,但是该仪表对三极管有一定的质量要求,要求十只中至少有八只是级品,其余的可以是二级品,否则仪表不能稳定工作。
此时仪表厂对这批三极管就面临两种不定性需要分辨:
(1)元件厂生产的,十万盒三极管,对仪器厂来说是满意的(即一盒中至少有八只是一级品)盒子所占比例p是多少?
(2)由于有十万盒三极管,现在仅购买其中的一百盒,因而就面临着另一种不定性。
即假使已知此十万盒中,满意的盒子所占的比例为p,又怎样能确定买来的一百盒中,满意的占多少比例呢?
例如p099,即十万盒中大约有九万九千盒是满意的,这个比例对仪器厂来说应该是很好了,但也有可能发生这样的意外,即仪器厂所购买的一百盒全部落在不满意的大约一千盒之中。
第一种不定性是不知道p,是我们对系统真实状态的“无知”;而后一种不定性是由于所谓,“随机性”造成的。
为了改善这不定性,仪器厂可要求元件厂对这批三极管的质量进行测试,也就是要求抽取部分三极管进行测试,通过这部分中一级晶所占的比例(频率)来对p的真实值进行推断,当然我们不能完全精确地决定p,但是我们可以希望获得一个(在某种意义下)比较好的判断,这就涉及到怎样设计试验,决定观察的数目和怎样利用试验观察的结果作出一个好的“推断”等,这些都是数理统计所要研究的问题。
至于在已知p的条件下,第二种不定性的程度已在概率论基础部分作过讨论。
数理统计研究的内容随着科学技术和生产的不断发展而逐步扩大。
但概括地说可以分为两大类:
(1)试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;
(2)统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确、可靠的结论。
本课程只讨论统计推断。
概率论的基本概念,数理统计的基本概念抽样分布,返回,退出,本章小结习题,数理统计的基本概念,总体和样本统计量顺序统计量和经验分布函数,返回,继续,我们今后所讨论的统计问题主要属于下面这种类型:
从一个集合中选取一部分元素,对这部分元素的某些数量指标进行测量,根据测量获得的这些数据来推断这集合中全部元素的这些数量指标的分布情况。
在统计学中,我们把所研究的全部元素组成的集合称为母体,或总体。
而把组成母体的每个元素称为个体,例如在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了母体,而其中每个灯泡就是个体。
但是在统计里,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或某几项数量指标X和该数量指标X在总体中的分布情况。
在上述例子中X是表示灯泡的寿命,就此数量指标X而言,每个个体所,总体、个体、样本、样本容量、样本值,取的值是不同的。
在试验中,抽取了若干个个体就观察到了x的这样或那样的数值,因而这个数量指标X是一个随机变量,而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。
由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来,所谓总体的分布也就是指数量指标x的分布。
为了对总体的分布律进行各种研究,就必须对总体进行抽样观察,一般说来,我们还不止进行一次抽样观察,而是进行几次观察。
通过观察就得到总体指标X的一组数值(x1,x2,xn),其中每个xi是一次抽样观察的结果。
即某一个被观察,总体、个体、样本、样本容量、样本值,的个体的X指标值,(x1,x2,xn)称为容量为n的样本的观察值。
由于我们是利用样本观察来对总体的分布进行推断,因而从总体中抽取样本进行观察时必须是随机的。
所以对于随机抽样来说,对其某一次观察结果而论,是完全确定的一组值,但它又是随每次抽样观察而改变的,由于我们要依据这一观察结果进行分析推断,并研究比较各种推断方法的好坏,因而一般考虑问题时,就不能把看为确定的数值,而应该看作为随机向量X=(X1,X2,Xn),称它为容量是n的样本,因而对样本也有分布可言。
总体、个体、样本、样本容量、样本值,我们抽取样本的目的是为了对总体的分布律进行各种分析推断,因而要求抽取的样本能很好地反映总体的特性,这就必须对随机抽样的方法提出一定的要求。
通常提出下面两点:
代表性:
要求样本的每个分量Xi与所观察的总体X具有相同的分布F(x);独立性:
X1,X2,Xn为相互独立的随机变量,也就是说,每个观察结果既不影响其他观察结果,也不受其它观察结果的影响。
满足上述两点性质的样本称为简单随机子样。
在今后如不作特殊声明,所说的样本将理解为简单随机样本,对于简单随机样本X=(X1,X2,Xn),其分布可以由总体X的分布函数F(x),简单随机样本,(或概率密度f(x))完全决定,X的分布函数为,简单随机样本,在数理统计中,研究对象的全体称为总体;组成总体的每个元素称为个体。
从总体中抽取的一部分个体,称为总体的一个样本;样本中个体的个数称为样本的容量。
从分布函数为F(x)的随机变量X中随机地抽取的相互独立的n个随机变量,具有与总体相同的分布,则X1,X2,Xn称为从总体X得到的容量为n的随机样本,简称样本。
一次具体的抽取记录x1,x2,xn是随机变量X1,X2,Xn的一个观察值。
总体与样本,例1A厂生产的某种电器的使用寿命服从指数分布,参数为未知,为此抽查了n件电器,测量其实际寿命。
是确定本问题的总体,样本及样本的分布。
样本是总体的代表和反映,但在我们抽取样本之后,并不直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本所包含的关于我们所关心的事物的信息集中起来,这便是针对不同的问题构造出样本的某种函数,这种函数在统计学中称为统计量。
引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。
统计量中应该不含有未知参数,如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。
统计量概念的引入,来自总体X的样本X1,X2,Xn的函数g(X1,X2,Xn),若是连续的且不含任何未知参数,则称为一个统计量。
统计量,常用的统计量,常用的统计量,常用统计量的性质,常用统计量的性质,定理1的证明,定理2的证明,定理2的证明,定理2的证明,定理3的证明,例2设有一容量n=8的样本观察值为(8,6,7,5,7,8,9,6),求样本均值及样本方差的观察值。
例3已知某种纱的强力服从N(1.56,0.222)(单位:
千克)今抽取容量为n=50的样本,求样本均值小于1.45千克的概率。
设x1,x2,xn为总体X的一组观察值,将它们按有小到大的顺序排列,得到x1*x2*xn*称它为顺序统计量。
则称它为经验分布。
顺序统计量和经验分布,顺序统计量和经验分布,抽样分布,正态总体样本的线性函数的分布X2-分布t-分布F-分布正态母体子样均值和方差的分布,返回,继续,统计量是我们对母体的分布律或数字特征进行推断的基础,因此求统计量的分布是数理统计的基本问题之一。
我们所感到兴趣的是下面两类问题第一类问题是:
对于任意一个自然数n,要找出给定的统计量Un=f(X1,X2,Xn)的分布,这分布称为这统计量的精确分布。
求统计量的精确分布对于数理统计中的所谓小样问题(即子样容量比较小时的统计问题)的研究是非常有用的。
第二类问题是:
不对任何个别的n求出统计量Un的分布,而只求出当n时,统计量Un的极限分布,这极限分布对于数理统计中的所谓大样,抽样分布,问题(即子样容量较大时的统计问题)的研究很有用处。
一般说来,要确定一个统计量的精确分布是非常复杂的,可是对于一些重要的特殊情形,如正态母体,这个问题有较简单的解法。
在今后各章中将会看到,正态母体的研究处于特别显著的地位,这一方面是由于其统计量的精确分布的数学分析比较容易;另一重要原因是:
在许多领域的统计研究中所遇到的母体,正态分布是它的一个很好的近似。
当然,中心极限定理也保证了这一状况。
正态总体样本的线性函数的分布,正态总体样本的线性函数的分布,X2分布,定理1的证明,定理1的证明,定理1的证明,定理1的证明及密度函数图,X2分布,t分布,定理1的证明,定理1的证明,t分布的密度函数图,t分布与正态分布,t分布,F分布,定理1的证明,定理1的证明,F分布,F分布,正态总体的样本均值与样本方差的分布,定理1的证明,定理1的证明,定理1的证明,正态总体的样本均值与样本方差的分布,正态总体的样本均值与样本方差的分布,正态总体的样本均值与样本方差的分布,P171,本章小结,习题,返回,P174,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 样本及抽样分布 第六 样本 抽样 分布