第四章 抽样误差与假设检验.pptx
- 文档编号:30803574
- 上传时间:2024-01-28
- 格式:PPTX
- 页数:38
- 大小:462.25KB
第四章 抽样误差与假设检验.pptx
《第四章 抽样误差与假设检验.pptx》由会员分享,可在线阅读,更多相关《第四章 抽样误差与假设检验.pptx(38页珍藏版)》请在冰豆网上搜索。
流行病与卫生统计学教研室,金英良,第四章抽样误差与假设检验,本章主要内容:
第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤,第一节均数的抽样误差与标准误差,假定某年某地所有13岁女学生身高服从总体均数=155.4cm,总体标准差=5.3cm的正态分布N(155.4,5.32)。
随机抽取30人为一个样本(n=30),并计算样本的均数和标准差,共抽取100次,可以得到100份样本,每份样本可以计算相应的均数和标准差。
1.156.75.16158.15.21155.65.3299.154.65.15100.156.65.25,=155.4cm=5.3cm,XS,一百个样本,抽样误差(smplingerror)这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差.,只要有个体变异和随机抽样研究,抽样误差就是不可避免的。
若从正态总体N(,2)中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数也服从正态分布。
样本均数的总体均数仍为,样本均数的标准差为,其计算公式为:
中心极限定理,SAMPLE1:
x11x12x13x14.x1n,SAMPLE2:
x21x22x23x24.x2n,SAMPLEk:
xk1xk2xk3xk4.xkn,原始总体,k个样本均数的频数分布图,标准误(standarderror,SE)样本均数的标准差。
它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。
统计上用标准误来衡量抽样误差的大小!
由于在实际工作中,总体标准差往往未知,而是用样本标准差S来代替,故只能求得样本均数标准误的估计值SX,其计算公式为:
估计,例4.1某市随机抽查成年男子140人,得红细胞均数4.771012/L,标准差0.381012/L,计算其标准误。
第二节总体均数的估计,1.统计推断(statisticalinference)在总体中随机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一过程称为统计推断。
一、可信区间的概念,统计推断,参数估计,假设检验,点估计,区间估计(可信区间),2.参数估计(parameterestimation)是指由样本统计量估计总体参数,是统计推断的一个重要内容。
(1)点估计(pointestimation)用样本统计量直接作为总体参数的估计值。
(2)区间估计(intervalestimation)又称可信区间(置信区间,CI)按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
=155.4cm,身高(cm),总体均数的95%可信区间,平均有95个可信区间包括了总体均数,只有5个可信区间不包括,即估计错误。
进行100次抽样,每次样本量为n=30,利用样本均数和标准差估计总体均数范围。
3.可信区间有两个要素:
(1)准确度(accuracy)可信度的大小,即可信区间包容的概率大小(1-)。
(2)精密度(precision)反映在区间的长度,区间长度越小精密度越高。
一般情况下,95%的可信区间更为常用。
在可信度确定的情况下,增加样本量,可减少区间长度,提高精密度。
t分布是t检验的基础,亦称studentt检验,是计量资料中最常用的假设检验方法。
戈塞特(WilliamSealeyGosset)英国著名统计学家。
出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。
二、总体均数可信区间的计算,1899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作,在那里他涉及到有关酿造过程的数据处理问题。
由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,首次以“学生”(Student)为笔名,在生物计量学杂志上发表了“平均数的概率误差”。
Gosset在文章中使用Z统计量来检验常态分配母群的平均数。
由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。
随机变量XN(m,s2),标准正态分布N(0,12),u变换,均数,标准正态分布N(0,12),在实际工作中,往往未知,常用代替进行变换,即,不服从标准正态分布!
而服从自由度=n-1的t分布,t分布,1、以0为中心,左右对称的单峰分布。
2、t分布曲线是一簇曲线,其形态变化与自由度的大小有关系(=n-1)。
t分布的特征:
自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布,当自由度为无穷大时,t分布就是标准正态分布。
为便于使用,统计学家编制了不同自由度对应的t界值表。
t分布的用途:
主要用于总体均数的区间估计及t检验。
s未知且n较小(n50)按u分布s已知按u分布,总体均数可信区间的计算方法,随总体标准差s是否已知,以及样本含量n的大小而异。
通常有t分布和u分布两类方法:
(一)已知,u变换公式:
(二)未知,1.n较小(n50),2.n较大(n50),例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。
该种病人血浆纤维蛋白原含量总体均数的95%可信区间为3.09g/L3.56g/L,例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。
该地成年男子红细胞总体均数的95%可信区间为4.711012/L4.831012/L,第三节假设检验的意义和步骤,一、假设检验的基本思想,“反证法”的思想先根据研究目的建立假设,从H0假设出发,先假设它是正确的,再分析样本提供的信息是否与H0有较大矛盾,即是否支持H0,若样本信息不支持H0,便拒绝之并接受H1,否则不拒绝H0。
例4.4以往通过大规模调查已知某地新生儿出生体重为3.30kg.从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg。
问该地难产儿出生体重是否与一般新生儿体重不同?
0=3.30kg次/分,已知总体,未知总体,n=35,=3.42kgS=0.40kg,与0之间的差异(不相等),有两种可能:
1、=0,仅因为用去估计时存在抽样误差,所以导致了与0之间的差异。
2、与0本身就不相等,所以导致了与之间的差异。
假设检验的基本原理:
抽样误差所致P0.05(来自同一总体)?
假设检验回答本身存在差别P0.05(来自不同总体),两均数两率不等,二、假设检验的基本步骤,1.建立假设检验和确定检验水准H0(无效假设):
=0H1(备择假设):
0(双侧检验),检验水准:
在实际工作中一般取0.05。
它确定了小概率事件的标准,即规定了概率不超过就是小概率事件。
0(单侧检验),0(单侧检验),=0.05,例如:
要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率,就属于单侧检验。
H1:
0,双侧,0都有可能H1:
0,单侧H1:
0,单侧,单、双侧检验,单双侧问题要由专业知识确定,2.选择检验方法和计算统计量根据资料的类型和分析目的选择适当的检验方法,并根据选择的方法计算相应的统计量。
3.确定概率P值和作出统计推断,样本统计量值的概率P,样本统计量值的概率P,用P值与检验水准进行比较,根据比较结果作出统计推断。
检验水准确定的P值,样本统计量值的概率P,检验水准确定的P值,样本统计量值的概率P,P,则拒绝H0,接受H1,P,则接受H0,拒绝H1,检验水准确定的P值,1.对于H0只能说拒绝与不拒绝,而对H1只能说接受。
2.P,则拒绝H0,接受H1,差异有统计学意义,可认为不同或不等。
3.P,则不拒绝H0,差异无统计学意义,尚不能认为不同或不等。
4.应事先确定。
选0.05只是一种习惯,而不是绝对的标准。
关于假设检验的几个观点,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四章 抽样误差与假设检验 第四 抽样误差 假设检验