生物统计学复习提纲.docx
- 文档编号:9396526
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:30
- 大小:878.81KB
生物统计学复习提纲.docx
《生物统计学复习提纲.docx》由会员分享,可在线阅读,更多相关《生物统计学复习提纲.docx(30页珍藏版)》请在冰豆网上搜索。
生物统计学复习提纲
生物统计学复习提纲(2012)
第1章统计学的基本概念
参数:
总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ,为固定的常数。
统计量:
样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为,为参数附近波动的随机变量。
统计描述
①集中趋势(centraltendency)常用描述集中趋势的统计量有:
1.算术均数(arithmeticmean),简称均数(mean)
适用条件:
资料呈正态或近似正态分布的资料
2.中位数(median),将一批数据从小至大排列后位次居中的数据值,以Me表示,中位数反映一批观察值在位次上的平均水平。
计算方法
先将观察值按从小到大顺序排列,再按以下公式计算:
特点:
仅仅利用了中间的1~2个数据,不能完全反映数据整体
主要适用于总体分布未知的数据
3.众数(mode),出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。
适用于大样本;较粗糙。
②离散趋势(tendencyofdispersion):
变量值围绕集中位置的分布情况,即个体观察值的变异程度。
常用的变异指标有:
1.极差(Range):
也称全距。
2.百分位数与四分位数间距PercentileandQuartilerange。
上述的两个指标没有考虑到每个观察值的变异。
3.方差Variance:
也称均方差(meansquaredeviation),观察值的离均差平方和的均值,表示一组数据的平均离散情况。
总体和样本的方差分别记为σ2,S2。
4.标准差(StandardDeviation,SD或STD,简记为S):
方差的正平方根;其单位与原变量X的单位相同。
总体和样本的方差分别记为σ,S。
5.变异系数CoefficientofVariation:
。
第2章常见的概率分布/样本均数的抽样分布
1.常见的概率分布
1.1二项分布
任一事件:
成功(A)——失败(非A)
这类“成功─失败型”试验称为Bernoulli试验。
n次Bernoulli试验构成了Bernoulli试验序列。
若一个随机变量
的可能取值是
=0,1,…,
,且相应的取值的概率为:
P(
=
)=
。
则称此随机变量X服从以
、
为参数的二项分布,记为X~B(
)。
如:
毒理试验中一定数量(n)白鼠死亡数(k)的分布。
1.2泊松分布
当二项分布中n很大,π很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。
泊松分布的概率函数为:
x为单位时间或单位空间内某事件的发生数,e为自然对数的底,
为大于0的常数,
即
服从以
为参数的泊松分布,
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
泊松分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布,
如:
单位空间中某些野生动物或昆虫数的分布;每升水中大肠菌群数的分布等。
1.3正态分布
若连续型随机变量x的概率分布密度函数为
其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。
正态分布具有以下几个重要特征:
(1)图形呈钟型、中间高、两头低、左右对称;
(2)图形最高处对应于X轴的值就是均数(位置参数);(3)标准差决定曲线的形状(形状参数);(4)曲线下面积为1;(5)是一个正态分布簇,经u变换可转换为标准正态分布。
标准正态分布
将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。
我们称μ=0,σ2=1的正态分布为标准正态分布(Standardnormaldistribution),记为N(0,1)。
正态曲线下面积分布规律:
标准正态分布
正态分布
面积或概率
-1~1
μ±σ
68.27%
-1.96~1.96
μ±1.96σ
95.00%
-2.58~2.58
μ±2.58σ
99.00%
2.样本均数的抽样分布
中心极限定理(CentralLimitTheorem)
如果总体不是正态总体,但有有限的均值
和标准差
,对于样本
,则当样本含量n不断增大时,样本均数的抽样分布也趋近于正态分布,
●抽样分布的均值与总体均值相同,即
;
●样本均数的标准差
,
也称作均值的标准误差(StandardErroroftheMean),也称标准误。
第3-5章简单统计推断
正态分布检验:
1.直观观察法频数直方图(HistogramofFrequencies)Q-Q图(quantile-quantileplot,
2.定量计算ShapiroWilk检验(ShapiroWilkTest),对于ShapiroWilk检验所给出的p值,如果p≥α,接受假设,总体服从正态分布;如果p<α,拒绝假设,总体不服从正态分布。
一般来说,α设为0.05。
t分布(t-distribution):
若x~N(μ,σ2),则
~N(μ,σ2/n)。
将随机变量
标准化得:
,其中
,则z~N(0,1)。
当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量
记为t。
在计算
时,采用S来代替σ,即
,则t变量不再服从标准正态分布,而是服从自由度为ν=n-1的t分布,这里n为样本量。
t分布与标准正态分布比较,中心位置不变,但分布曲线峰值低,两侧较伸展。
t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。
统计推断概念
统计推断(Statisticalinference)是采用样本统计量如
对相应总体参数如
所做的非确定性的推估。
是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验(testofhypothesis)和参数估计(parameterestimation)。
其中参数估计又包括点估计及区间估计两种方法
区间估计:
获得一个置信区间(Confidenceinterval,CI)--由样本数据估计得到的100
(1)%可能包含未知总体参数的一个范围值。
95%置信区间的含义:
按这种方法构建的置信区间,理论上平均每100次,有95次可以包含到总体参数。
注意:
95%可信区间不是指总体参数落在CI范围的可能性为95%。
区间估计的优劣:
要同时从置信度(即1-的大小)与区间的宽度
两方面来衡量。
当样本含量为定值时,上述两者互相矛盾。
在置信度确定的情况下,增加样本含量可减小区间宽度。
假设检验与置信区间的关系
我们可以从置信区间的角度来阐述假设检验的决策规则,接受H0是由于(1-α)100%的置信区间包含μ0
这也就意味着,当我们计算出置信区间时,我们也自动得到了关于μ的假设检验的结论
即如果μ0包含在置信区间内,则接受零假设,反之则拒绝零假设
置信区间不能替代假设检验
置信区间只能在预先规定的概率α前提下进行计算,而假设检验能够根据样本数据获得的统计量如z,t及样本的其他信息(如自由度n)获得确切的概率p值。
二、假设检验的两类错误
I型错误(弃真):
H0为真(实际无差别),假设检验结果拒绝H0,接受HA(推论有差别),所犯的错误称为I类错误(typeIerror),I类错误的概率记作α。
(1-α)即置信度。
II型错误(纳伪):
HA为真(实际有差别),假设检验结果拒绝HA,接受H0(推论无差别),所犯的错误称为II类错误(typeIIerror),II类错误的概率记作β。
(1-β)即把握度(或检验效能),即两总体确有差别,按α水准能发现该差别的能力。
两类错误之间的关系α大β就小,α小β就大。
基本原则:
力求在控制α前提下减少β。
通过增大样本量同时减少两类错误的发生。
三、正态总体均值检验的类型
样本均数假设检验的种类:
•单样本均数假设检验
样本均值与已知某总体均数μ0比较的z检验或t检验。
目的:
推断一个未知总体均数μ与已知总体均数μ0是否有差别,采用单样本假设检验。
其应用条件是样本来自正态分布的总体
*两个独立样本均数比较的假设检验
适用于完全随机设计两独立样本均数的比较,此时人们关心的是两样本均数所代表的两总体均数是否相等。
其应用条件是两样本分别来自正态分布的总体.检验方法:
依两总体方差是否齐性而定。
*配对设计资料均数比较的假设检验
配对样本t检验适用于配对设计的计量资料。
配对样本检验类型:
1.两同质受试对象分别接受两种不同的处理;
2.同一受试对象分别接受两种不同处理;
3.同一受试对象(一种)处理前后。
•配对样本检验具有一一对应的特点,研究者关心的变量是对子的效应差值,而不是各自的效应值。
如果两处理因素的效应无差别,理论上差值d的均数应为0,因此,可将该检验理解为差值d的样本均数所对应的总体μd与总体均数0的比较。
•其应用条件是差值d变量服从正态分布
样本均数假设检验的步骤:
单样本均数假设检验:
1.零假设vs.备择假设
双侧检验H0:
μ=μ0vs.HA:
μ≠μ0
单侧检验H0:
μ≤μ0(或μ≥μ0)vs.HA:
μ>μ0(或μ<μ0)
2.选取α水平(0.05最常用,也有0.01等)
3.检验统计量及计算σ已知,z检验,z统计量
σ未知,t检验,t统计量
ν=n-1
4.根据统计量在分布中的位置决定在α水平拒绝或接受H0
配对样本t检验
1.零假设vs.备择假设双侧检验H0:
μd=0vs.HA:
μd≠0
单侧检验H0:
μd≤0(或μd≥0)vs.HA:
μd>0(或μd<0)
2.选取α水平(0.05最常用,也有0.01等)
3.检验统计量及计算
v=n-1d为每对数据的差值,
为差值的样本均数, Sd为差值的标准差,
为差值样本均数的标准误n为对子数
4.根据统计量在分布中的位置决定在α水平拒绝或接受H0
两独立样本t检验
两独立样本t检验步骤
单侧检验还是双侧检验:
根据专业知识推断两个总体是否有差别时,甲高于乙或者乙高于甲两种可能都存在时,一般选双侧检验;若根据专业知识,如果甲不会低于乙,或者研究者仅关心其中一种可能时,可选用单侧。
配对样本t检验vs.两独立样本t检验
配对样本也可作为两独立样本进行t检验
配对样本两组的观测值数目相同,而独立样本t检验两组的观测值数目可相同,也可不同。
通过两组均值的差别体现两变量关联的大小,很大程度上依赖于组内观察值个体差异。
而随机配对设计的资料最大限度地减少了个体差异(生物变异)对实验结果的影响,因而减少了实验误差,提高了实验精确度,效率较高,用较小样本可得出较多的信息和较大的精确度,故对自身对照设计的资料应用配对差值的t检验。
第6,7章方差分析
用途:
用于推断多个总体均数有无差异。
方差分析的应用条件
●各样本是相互独立的随机样本;
●各样本来自正态总体;
●各处理组总体方差齐性。
方差分析的步骤
首先,提出一个原假设,如H0:
µ1=µ2=...=µn,对应的备选假设HA:
µ1,µ2,...,µn不全相等;
第二,计算F值;
第三,确定显著性水平(一般来说α=0.05或0.01);
第四,查F值表,确定p值。
如果F值大于某个临界值,表示处理组间的效应不同;如果F值等于甚至小于某个临界值,表示处理组间效应相同。
第五,如果F检验表明各处理组间的效应不全同,可继续进行均数间的两两比较。
当组数为2时,方差分析与两均数比较的t检验是等价的,对同一资料,有
。
为什么一般t检验用作多重比较是错误的?
当有k个均数需作两两比较时,比较的次数共有
=k(k-1)/2次。
设每次检验所用I类错误的概率水准为α,累积I类错误的概率为α’,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积I类错误概率α’与c有下列关系:
α’=1-(1-α)c。
例如,设α=0.05,c=3(k=3时),其累积Ⅰ类错误的概率为α’=1-(1-0.05)3=1-(0.95)3=0.143。
多个样本均数间的两两比较或称多重比较(multiplecomparison),也叫posthoc检验,多重比较控制累积Ⅰ类错误概率增大的方法主要有:
Bofferoni校正法、LSD法、Duncan法和S-N-K法。
(本学期考试仅要求掌握Bofferoni校正法)
单因素方差分析(One-wayANOVA)
检验由单一因素影响的一个(或几个相互独立的)分析变量由因素各水平分组的均值之间的差异是否有统计意义。
并可以进行两两组间均值的比较,称作组间均值的多重比较,还可以对该因素的若干水平分组中哪些组均值不具有显著性差异进行分析,即一致性子集检验。
One-WayANOVA过程要求:
因(分析)变量属于正态分布总体;
对被观测对象的实验进行随机分组。
数据结构
离差平方和的分解:
方差分析表—单因素方差分析
在单因素方差分析用采用Bofferoni校正法:
在均值的多重检验中,设犯Ⅰ类错误的总概率为α
单个比较的显著性水平:
统计量:
自由度ν=n–k
双因素(无交互作用)方差分析
数据结构
离差平方和的分解:
方差分析表—双因素(无交互作用)方差分析
完全随机区组设计
随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计。
该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。
“完全”代表着每一个区组都包含了所有的处理,采用这一设计,区组形成了较为同源的实验单位,从而有效地剔除了区组间的个体差异,从而更能反映处理之间是否存在差异
完全随机区组设计采用双因素无交互作用的方差分析,其中处理对应于因素A,区组对应于因素B
离差平方和的分解:
简化公式
N=ab
拉丁方设计
•何为拉丁方?
拉丁方是由拉丁字母(A,B,C,…)所组成的正方形排列,这种排列的条件是在同一列与同一行的字母只出现一次。
拉丁方具有正交排列的特点。
•拉丁方设计:
每一个拉丁字母代表一个实验处理
每一格代表一个实验单元
处理从行和列两个方向排列
每一行包括所有的处理
每一列也包括所有的处理
两个多余因素构成区组变量
多余因素:
指可能影响实验结果但不是被主要关注的因素
数据结构(例)
试验
日期
受试者
甲
乙
丙
丁
戊
1
A=74
B=70
C=69
D=74
E=74
2
B=67
C=74
D=80
E=77
A=86
3
C=68
D=88
E=76
A=77
B=71
4
D=76
E=81
A=76
B=73
C=72
5
E=72
A=80
B=70
C=79
D=81
离差平方和及自由度:
SST=SSRows+SSColumns+SSTreatments+SSE
离差平方和来源
S.S.
d.f.
M.S.
F
处理
p-1
MSTr/MSE
行
p-1
MSRow/MSE
列
p-1
MSCol/MSE
误差
(p-2)(p-1)
总和
p2-1
基本析因分析
a×b析因分析
假设某个试验中,有两个可控因素在变化,因素A有a个水平,记作A1,…,A2,Aa;因素B有b个水平,记作B1,B2,…,Bb;除A与B分别单独对因变量产生影响外,A与B之间的交互作用也对因变量即观测值产生影响,每个水平组合称为一个处理,每个处理作n次重复试验,得abn个观测值xijk
数据结构
总离差平方和
离差平方和的分解
SSSubtotals:
单元格内均数的离差平方和
SSAB=SSSubtotals–SSA–SSB
SSE=SST–SSA–SSB-SSAB
或
SSE=SST-SSSubtotals
方差分析表
小结:
方差分析基本步骤
1.建立数学模型
2.设立零假设
3.计算离差平方和
4.计算自由度
5.计算均方
6.计算F统计量
7.根据F统计量求得相应的p值
8.构建方差分析表
9.根据p值决定拒绝或接受零假设,得出相应结论
10.模型适合性检验(这部分内容作了解,不在考试范围)
第8章非参数检验
什么时候用非参数方法?
对总体分布不了解时。
非参数方法(NonparametricMethods):
不对总体参数进行假设检验,对总体分布形态及方差是否齐性也无严格要求,特别适用于定序和顺序性质的资料。
非参数检验比参数检验应用范围广,但其灵敏性和精确度不如参数检验。
非参数检验的假设设定与参数检验相类似
非参数检验的三种常用方法
•符号检验(SignTest)
•Wilcoxon符号秩检验(WilcoxonSigned-RankTest)
•Wilcoxon秩和检验(WilcoxonRankSumTest)
符号检验
符号检验是通过对两个相关样本的每对数据之差的符号(正号或负号)进行检验,以比较两个样本差异的显著性。
符号检验与配对样本t检验有所类似,不需分别关注两个样本,而是将两组数据进行配对,求出每一对数据的差值,根据差值进行分析
符号检验步骤
1.建立假设
无效假设H0:
两处理差值d总体中位数=0
备择假设HA:
两处理差值d总体中位数≠0
或d总体中位数<0(一尾检验)
或d总体中位数>0(一尾检验)
2.计算差值并赋予符号
d>0者记为“+”,总个数记为n+
d<0者记为“-”,总个数记为n-
d=0,总个数记为0
样本量n=n++n-
检验的统计量为K为n+、n-中的较小者
n+ 及n-可看作π=0.5的Bernoulli随机变量的结果
n+个数的均数为nπ=n/2
标准差为
3.1当样本量n<25时
由n查符号检验临界值表得临界值K0.05(n),K0.01(n),作统计推断:
如果K>K0.05(n),P>0.05,则不能否定H0,两个试验处理差异不显著;
如果K0.01(n)<K≤K0.05(n),0.01<P≤0.05,则否定H0,接受HA,两个试验处理差异显著;
如果K≤K0.01(n),P≤0.01,则否定H0,接受HA,两个试验处理差异极显著。
3.2当样本量较大,即n>25时,可以用正态分布近似处理,检验统计量为:
z+近似服从标准正态分布
根据z+在标准正态分布中所处的位置决定接受或拒绝零假设
符号秩次检验法
既考虑差数符号,又考虑差数大小。
如果两个总体的分布相同,每个配对数值的差应服从以0为中心的对称分布。
也即是将差值按照绝对值的大小编秩(排顺序)并给秩次加上原来差值的符号后,所形成的正秩和与负秩和在理论上是相等的(满足差值总体中位数为0的假设),如果二者相差太大,超出界值范围,则拒绝原假设。
1、N<25或30(小样本)
(1)把相关样本对应数据之差值按绝对值从小到大作等级排列(注意差值为零时,零不参加等级排列,相应的那一对配对数据也不计入样本量(即需要从样本量中减去1));如果差值相同,则就取它们的平均秩次;
(2)在各等级前面添上原来的正负号;
(3)分别求出带正号的等级和(T+)与带负号的等级和(T-),取两者之中较小的记作T;
(4)建立假设:
H0:
T+=T-HA:
T+T-
(4)根据N,T查符号轶检验表
T>T临介:
接受H0
TT临介:
拒绝H0
2.N>25(大样本)
当N>25时,一般认为T的分布接近正态分布,检验统计量为:
Wilcoxon轶和检验
秩和检验也叫做符号秩和检验(signedrank-sumtest),或称Wilcoxon检验,也称Mann–Whitney U test,其统计效率远较符号检验为高。
秩和检验与符号检验法不同,要求差数来自某些对称分布的总体,但并不要求每一差数来自相同的分布。
方法:
1.将观察值按由小到大的次序排列,
2.编定秩次,
3.求出秩和进行假设检验。
适用范围
1)秩和检验法与参数检验法中两独立样本t检验相对应。
当“总体正态”这一前提不成立时,不能用t检验,可以用秩和检验法;
2)当两个样本都为定序(顺序)变量时,也需使用秩和法进行差异显著性检验。
轶和检验步骤:
1、小样本:
两个样本容量均小于10(n110,n210)
(1)将两个样本数据混合由小到大排列秩次(如果大小相同就计算它们的平均秩次);
(2)把样本容量较小的样本中各数据的秩次相加,以T表示;
(3)建立假设
H0:
A=BH1:
AB
(4)检验
把T值与秩和检验表中的临界值比较
TT1或TT2,则表明两样本差异显著;
T1 2.大样本: 两个样本容量均大于10(n1>10,n2>10)。 可以证明,当n时,T就趋向正态分布,此时,秩和T的分布接近正态分布,可以进行Z检验。 其平均数和标准差如下: 第9章总体比率的统计推断 比率的抽样分布 设样本量为n,某一事件的发生服从二项分布,其发生的个数为x,当样本量n足够大时则我们可以估算出该事件发生的总体比率 为 可得出z统计量如下 z~N(0,1) 根据计算出的Z值可进行比率的统计推断,即对(H0: p=p0 vs.HA: pp0) 进行推断 比率的(1-α)的置信区间为 _ 两样本率比较的假设检验 目的是推断两样本所来自的两总体的总体率是否相等。 H0: p1=p2vs.HA: p1≠p2 如果零假设为真,也就是p1与p2实际相等,则两样本可合并以估计新参数 检验统计量 当n1及n2足够大时,即 均大于等于5时 z~N(0,1) z z-α/2≤z≤zα/2时,在α水平接受H0 第10章卡方检验与列联表 计数资料2检验的基本思想: 首先假设观察频数(O)与期望频数(E)没有差别,而X2值表示观察值与理论值的偏差程度。 当n较大时,X2统计量近似服从n-1个自由度的2分布。 (1)N–单元格总个数。 X2是度量实际观察次数与理论次数偏离程度的一个统计量,X2越小,表明实际观察次数与理论次数越接近;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计学 复习 提纲