卫生统计学知识点总结.docx
- 文档编号:25306788
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:36
- 大小:40.73KB
卫生统计学知识点总结.docx
《卫生统计学知识点总结.docx》由会员分享,可在线阅读,更多相关《卫生统计学知识点总结.docx(36页珍藏版)》请在冰豆网上搜索。
卫生统计学知识点总结
八、
卫生统计学
统计工作基本步骤:
统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计
】。
描述和统计推断(参数估计和假设检验)
★统计推断:
是利用样本所提供的信息来推断总体特征,包括:
参数估计和假设检验。
a参数估计是指利
用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预
先设定的可信度(1-a),来确定总体均数的所在范围】°b假设检验:
是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。
变量资料可分为定性变量、定量变量。
不同类型的变量可以进行转化,通常是由高级向低级转化。
资料按性质可分为计量资料、计数资料和等级资料。
定量资料的统计描述
离散型定量变量的频率分布图可用
1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。
直条图表达。
2频率分布表(图)的用途:
①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。
★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:
平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。
算术均数:
适用于对称分布资料,特别是正态分布资料
或近似正态分布资料;几何均数:
对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:
适
用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
(2)描述离散趋势的指标:
极差、四分位数间距、方差、标准差和变异系数。
四分位数间距:
适用于各种
分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:
都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结
合起来描述资料的集中趋势和离散趋势;变异系数:
主要用于量纲不同时,或均数相差较大时变量间变异
程度的比较。
标准差的应用:
①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。
定性资料的统计描述
1定性资料的基础数据是绝对数。
描述一组定性资料的数据特征,通常需要计算相对数。
定性变量可以通过
频率分布表描述其分布特征。
2常用相对数类型:
频率型、强度型和相对比型指标。
指标
频率型指标
强度型指标
相对比型指标
概念
近似反映某一时间出现概率
单位时间内某现象的发频率
两个有关联的指标A和B之比
计算
公式
某事件1ft生的乍体藪疋卜可1蝮生某事件的牛休数""
慕事件*生的个槪„
观S人日数总计
A/B
有无
量纲
无
有
可有、可无
取值范围
【0,1】
可大于1
无限制
本质
大样本时作为概率近似值
频率强度,即概率强度的
勺表示相对于B的一个单位,A有:
分子式分母的一部分
似
单位
值
A和B可以是绝对数、相对数和平均
A和B的量纲可相同也可不同
A和B互不包含
相对比:
A、B两指标可以是绝对数、相对数或平均数。
最常见的相对比是人口学中的男女性别比,流行病
学中的相对危险度RR=P/P0也是相对比指标。
3应用相对数应该注意:
①防止概念混淆,避免以比代率的错误现象;②计算相对数时分母应有足够数量,
如果例数较少会使相对数波动较大,应该使用绝对数;③正确的计算频率(或强度)指标的合计值。
当分
组的资料需要合并起来估计频率(或强度)时,应将各组频率的分子相加作为合并估计的分子,各组的分
母相加作为合并估计的分母;④频率型指标的解释要紧扣总体和属性;⑤相对数间比较要具备可比性:
要
注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同
时期资料应注意客观条件是否相同;⑥正确进行相对数的统计推断:
在随机抽样的情况下,从样本估计值
人口调查(普查和抽样调查)。
人口学的基本特征包括性老年人口系数、少
推断总体相对数应该考虑抽样误差,因此要进行参数估计和假设检验。
4医学人口统计资料主要来源为日常工作记录(报告单、卡、册)、统计报表、
5描述人口学特征的常用指标一般有人口总数和反映人口学基本特征的某些指标。
别、年龄、文化、职业等,最常用来描述人口结构的是性别和年龄。
人口学特征指标:
儿人口系数、负担系数、老少比、性别比。
6有关生育的常用指标有出生率、生育率和人口再生产指标。
测量生育水平的统计指标:
粗出生率、总生育
率、年龄别生育率、总和生育率。
测量人口再生育的统计指标:
自然增长率、粗再生率和净再生率。
7常用的死亡统计指标有:
粗死亡率、年龄别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、死因别
死亡率、某病病死率和死因构成等。
8疾病统计资料主要来源于:
疾病报告和报表材料、医疗卫生工作记录、疾病专题调查资料。
采用统一的标准,对两组或多
~。
其目的是统一内部构成,消除混
9⑴标准化:
两个率或多个率之间进行比较时,为消除内部构成不同的影响,
组资料进行校正(调整),计算得到标准化率后再做比较的方法,称为
杂因素,是资料具有可比性。
⑵应用标准化法的注意事项:
1
这两个分类变量就成为两组频率比较
标准化法的应用范围很广。
当某个分类变量在两组中分布不同时,
的混杂因素,标准化的目的是消除混杂因素。
2标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相对水平。
3标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比较。
选择不同的标准,算出的标准
化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由
4两样本标准化率是样本值,存在抽样误差。
比较两样本标准化率,当样本含量较小时,还应作假设检验。
10常用的动态数列分析指标有:
绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
(1)绝对增长量:
是说明事物在一定时期增长的绝对值,可分为:
累计增长量(报告期指标与基线期指标
之差)和逐年增长量(报告期指标与前一期指标之差)。
(2)发展速度与增长速度:
均为相对比,说明事物在一定时期的变化,可计算定基比(即报告期指标与基
线期指标的比:
an/a0)和环比(报告期指标与其前一期指标之比:
an/an-1)。
增长速度表示的是净增长速度,
增长速度=发展速度-100%。
(3)平均发展速度与平均增长速度:
用于概括某现象在一段时期中的平均变化。
平均发展速度是发展速度
Jan
的几何平均数,平均发展速度=J—,平均增长速度=平均发展速度-100%。
Va。
11统计表和统计图是描述资料特征、呈现统计分析结果的重要工具。
统计表结构标题、标目、线条、数字
和备注。
12常用统计图用途:
①条图:
适用于相互独立的资料(资料有明确分组、不连续)于构成比资料;③线图适用于连续性资料,表达事物的动态变化(绝对差值)料,表达事物的发展速度(相对比);④直方图用于描述连续变量的频数分布;用点的排列趋势和密集度表示两变量的相关关系。
常用概率分布
;②百分条图、圆图适用;半对数线图适用于连续性资⑤散点图适用于双变量资料,
1正态分布(连续型随机变量的概率分布)
(1)正态概率密度曲线特点:
①关于X=y对称;②在X=卩处取得该概率密度函数的最大值,在X=y±d
处有拐点;③曲线下面积为1;④正态分布有两个参数:
位置参数卩(决定曲线在横轴上的位置)和变异参
数d(决定曲线的形状):
⑤y±1.64d面积为90%,卩±1.96d面积为95%,卩±2.58d面积为99%。
(2)Z变换与标准正态分布:
对于任意一个服从正态分布N(
y,d2)的随机变量,可作Z变:
Z=
X—y
N(0,1)
变换后的z值仍然服从正态分布,且其总体均数为0、总体标准差为1,称此为标准正态分布,用
表示。
①(Z)为标准正态分布Z变量的累积面积,-…Z的面积,即下侧累计面积。
★(3)正态分布的应用:
①确定医学参考值范围:
是指特定的“正常”人群(排除了对所研究的指标有影
响的的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在范围,习惯用该人群的95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。
a百分位数法:
适用于任何分布类型的资料;b正态分布法。
②质量控制图:
如果某一波动仅仅由个体差异
或随机测量误差所致,那么观察结果服从正态分布。
控制图共有7条水平线,中心线位于总体均数y处,
警戒限位于y±2d处,控制限位于y±3d处,此外还有两条位于y±d处。
★(4)确定医学参考值的步骤:
①从“正常人”总体中抽样,明确研究总体;②用统一和准确的方法测定
相应的指标;③根据不同的用途选定适当的百分界限,常用95%;④根据此指标的实际意义,决定单侧范
围
还是双侧范围;⑤根据此指标的分布决定计算方法,常用的计算方法:
正态分布法、百分位数法。
2二项分布:
(1)是一种离散型随机变量的分布类型。
如果每个观察对象阳性结果的发生概率为为(1-n);而且每个观察对象的结果是相互对立的,那么,重复观察n个人,
方法:
n,阴性结果的发生概率发生阳性结果的人数X的概
率分布为而二项分布,记作B(n,n)。
二项分布的概率函数P(X)=C:
nX
"\n-x
(1-n),
n!
CnXX!
(n—X)!
⑵适用条件:
①每次实验只有两种互斥的结果;②各次实验互相独立;③发生成功事件的
⑶分布特征:
二项分布的特征由二项分布的参数n以及观察的次数n决定。
1图形分布特征:
二项分布图的高峰在y=nn处或附近;n=0.5时,图形对称;n丰0.5且对同一n,n离0.5愈远,对称性愈差。
对于同一n,随着n的增大,分布趋于对称。
当n不太靠近0或1(特别是当nn和n(1-n)均大于5时),二项分布趋于对称。
2二项分布的均数和标准差:
若X服从二项分布B(n,n),则X的总体均数为y=nn,总体方差为d2=nn(1-n),总体标准差为
X
P=仝,则样本率P的总体均数为yP=n,总体方差为d
n
=Jnn(1-n);若将出现阳性结果的频率记为:
概率恒定。
时,分布不对称,
nfs时,只要
(T
dp是频率P的标准差,又称频率的标准误,反映阳性频率
n(1-n),总体标准差为dp=jn(1-n)
的抽样误差大小。
n!
k
⑷累积概率计算:
①二项分布出现阳性的次数至多为k次的概率为:
P(Xk)=Zn!
——nx(1-n)n~^
xM(n-X)!
n!
n
②出现阳性的次数至少为k次的概率为:
P(X>k)=y1nx(1-n)n-。
X土X!
(n-X)!
3Poisson分布:
入=nn。
前提条件:
⑴是一种离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。
一般记作P(入),入是Poisson分布的唯一参数。
总体均数为
互斥、独立、恒定。
、X
A
e=2.71828。
⑵概率函数为:
P(X)=e-",X为观察单位内稀有事件的发生次数,
分布趋于对称,当入
均为入:
②Poisson
XI、X2…Xm它们的和也服
⑶分布特性:
Poisson分布是非对称的,总体参数入值越小,分布越偏;随着入78,
>20时,Poisson分布资料可按正态分布处理。
①Poisson分布总体均数与总体方差相等,
分布的观察结果可加性,即对于服从Poisson分布的m歌互相独立的随机变量
P(XWk)=
n)近似于
5时),二项
从Poisson分布,其均数为这个m随机变量的均数之和。
⑷概率计算:
如果稀有事件发生次数的总体均数为入,有事件发生次数至多为k次的概率为:
k-X
Ze」—;生次数至少为k次的概率:
P(X>k)=1-P(XWk-1)Xz0X!
★4三种常用分布之间的关系:
1
n不接近0或1(特别是当nn和n(1-n)均大于nn(1-n));
>20时,Poisson分布渐进正态分布N(入,入)。
二项分布与Poisson分布的关系:
当n很大,发生概率n(或1-n)很小,二项分布B(n,Poisson分布P(nn);
2二项分布与正态分布的关系:
当n较大,分布B(n,n)近似于正态分布N(nn,
④Poisson分布与正态分布的关系:
当入
★5二项分布与Poisson分布的区别:
⑴相同点:
都是离散型随机变量的常见分布;
n+1个不同的取值;Poisson分布的随机变量的可能去只
0,1,2……;b随机变量的概率不同:
二项分布P(X=k)-k
A
分布P(X=k)=e--订;c描述的随机变量不同。
二项分布描述的是一次
⑵区别:
a取值不同。
服从二项分布的随机变量有
有无限多个,即非负整数
——nk(1-n)n'k,Poisson
n次独立重复试验中某种结果出现次数的概率分布。
Poisson分布描述
k!
(n—k)!
试验只会出现两种对立的结果之一,
的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。
⑶联系:
B(n,n)—塑土X很JTPoisson分布。
参数估计
1在服从正态分布的总体中进行随机抽样,样本均数的抽样分布特点:
①各样本均数未必等于总体均数;②
样本均数见存在差异;③样本均数围绕总体均数,中间多、两边少,左右基本对称,呈近似正态分布;④样本均数间的变异明显小于原始变量间的变异。
2标准误:
c
①均数的标准误的理论值:
(TX=〒,总体标准差b通常未知,需用样本标准差S来估计,均数标准误的
vn
P=—的总体概率为n,标
n
估计值为:
Sz=丄:
②频率的标准误:
若随机变量X~B(n,n),则样本频率
X亦
准误是bp=/,频率标准误的估计值:
珂叵片呻)
(①②增加样本含量可以减
少样本误差)。
★3标准差与标准误的区别与联系:
区别:
⑴标准差S(b):
①意义:
描述个体观察值变异程度的大小。
标准差小,均数对一组观察值得代表
性好;②应用:
与X结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关
系:
n越大,S越趋于稳定;⑵标准误SX(bX):
①意义:
:
苗述样本均数变异程度及抽样误差的大小。
标准误小,用样本均数推断总体均数的可靠性大;②应用于X结合,用以估计总体均数可能出现的范围以
及对总体均数作假设检验;③与n的关系:
n越大,SX越小。
联系:
①都是描述变异程度的指标;②由SX=莘可知,SX与S成正比。
n—定时,s越大,SX越大。
Jn
—u
v=n-1的t分布,是小样本总
4t分布:
当X服从均数为卩的正态分布时,统计量t=X服从自由度为
SJn
体均数的区间估计及假设检验的理论基础。
⑵t分布的图形特征:
t值得分布于自由度有关。
t分布只有一个参数即心,左右对称;②V越小,t值越分散,曲线的峰部越矮,尾部越高;③随着标准正态分布;当V趋向8时,t分布趋近标准正态分布,故标准正态分布是簇曲线。
V。
特征:
①单峰分布,以V逐渐增大,tt分布的特例;
0为中分布逐渐接近④t分布是一
⑶t界值表:
①在自由度相同时,
t值越大,t分布的尾部概率越小;②在
t临界值相同时,
双侧尾部面
积概率为单侧尾部面积概率的两倍。
5参数估计:
包括点估计和区间估计。
置信区间的两个要素:
①准确度:
反映置信度1-a的大小,及区间
包括总体均数卩的理论概率的大小,愈接近1越好;②精密度:
即区间的宽度,区间越窄越好,如样本含量不变,将置信度由95%提高到99%,则置信区间由窄变宽,估计的精度下降。
6总体均数及总体概率的区间估计:
⑴体均数的置信区间:
t分布法和正态近似法
I.t分布法:
当b未知且n较小时,总体均数
卩的双侧(1-a)置信区间为X±ta/2,VS-;单侧(X-ta,VSw,
8)或(-8,X+t
a,VSX);
II.正态近似法:
①当
b已知时,总体均数
卩的双侧(1-a)置信区间为X±Za/2,Vb-;单侧(X-Z沁
b-,8)或(-8
X+Za,Vb-);②当
b未知但n足够大时(n>50),t分布近似服从标准正态分布,
总体均数卩的双侧(1-a)置信区间为:
X±Za/2,VS-,单侧(X-Za,VS-,8)或(-8,X+Za,V
n和样本频率P的大小,选用查表法
⑵总体概率的置信区间:
对于二项分布的样本资料,可根据样本含量
(nW50,特别是p很接近0或100%时)或正态近似法估计总体概率冗的(1-a)置信区间。
正态近似法:
当n足够大,且np及n(1-p)均大于5时,p的抽样分布近似正态分布,总体概率n的双侧(1-
a)置信区间等于P±Za/2$
★7医学参考值范围与总体均数的置信区间的区别:
⑴参考值范围
1意义:
2计算:
绝大多数人某项指标的数值范围;__
正态分布双侧X±Za/2,vS;单侧(X-ZaS,8)或(-8,X+ZaS)偏峰分布双侧Px~P100-X;单侧(R<,8)或(-8,P100-X)
判断某项指标正常与否
③应用:
⑵总体均数的置信区间:
①意义:
按一定的置信度估计总体均数所在范围;
②计算:
正态分布
(T未知:
双侧X±ta/2,vSX,单侧(X-ta,vS乂,8)或(-8
X+ta,vS歹);
(T已知:
双侧X±Za/2,v『X,单侧(X-Za,v『X,7或(-8
X+Za,v-X);
正态分布或偏峰分布:
(T未知但n足够大:
双侧X±Za/2,vS-,单侧(X-Za,v
SP,8)或(-
③应用:
8,X+Za,vSX)
估计总体均数所在范围。
假设检验
1假设检验的过程:
建立检验假设,确定检验水准7计算统计量7确定结论。
2假设检验的基本逻辑:
P值并与给定的a比较7做出推断
现假阳性”当作“不可能出现假阳性”
3假设检验的两类错误:
实际情况
在Hd成立的条件下(处理因素不起作用)
,从而拒绝Hd,接受
I型和n型错误。
(见名解)
统计推断
拒绝Hd,有差异
第I类错误(假阳性),概率=a
正确,该概率=1-3
,计算统计量和P值,把“不太可能出H(处理因素起作用)。
Hl成立,无差异
Hl成立,有差异
4t检验:
⑴应用条件:
①随机样本:
②来自正态分布总体;③均数比较时,
⑵单样本资料的
t检验:
实际上是推断该样本来自的总体均数
检验假设:
H):
不拒绝H正确,概率第n类错误
,无差异
=1-a
(假阴性),概率=3
要求两总体方差相等(方差齐性)。
卩与已知的某一总体均数(10有无差别。
H:
□工卩0;前提条件:
样本来自正态总体;计算公式:
X-%
t=—「L;自由v=
SVn
I
n-1。
配对设计资料的
检验推断差值总体均数是否为
t检验:
配对资料的分析着眼与每一对中两个观察值之差,这些差值构成一组资料,用
0。
d_;Sdh!
~nSdhTn
d—巴d—0检验假设:
H):
1d=0,H:
1dM0;前提条件:
差值服从正态分布;计算公式t=——-d0-
sd
自由度v=n-1(n是对子数)。
两独立样本资料的t检验:
两样本均数的比较。
检验假设:
H):
卩1=卩2,Hl:
41M42;前提条件:
两样本服从正态分布,且具有方差齐性;计算公式:
Sc为两样本联合估
t二刃1~來2,SXX代表两样本均数之差的标准误,sX^=be彳丄+丄】
Sp2X12X12V&n2丿
计的方差,s:
=(nL18'"n2-182*X-X畀g-X";自由度
rr,+n2-2
5t'检验:
前提条件:
两小样本来自正态总体且方差不等。
方差不齐,可采用的处理方式有:
于秩次的非参数检验和数据变换。
非正态分布,方差不齐:
基于秩次的非参数检验和数据变换。
V=ni+n2-2。
t'检验,基
Xr-X2(sX+SXf
检验假设:
H):
出=巴,Hl:
出工42;计算公式:
tj12:
;自由度十=一
S兀十S又2Y“1门2n^—1n^—1
两组正态分布随机样本判断其总体方差是否齐同:
6两组独立样本资料的方差齐性检验:
H0:
CT;=CT;H1:
W2HCT;,
当H0成立时,检验统计量F=第较大)
8((较小)
Vi=ni—1評2=门2—1,
当F>3时,方差不齐。
7大样本资料的Z检验(U检验):
前提条件:
样本足够大;两独立样本资料的
Z检验:
假定从两个正态总
体(或非正态)总体随机抽取含量为
n1和n2的样本,总体均数和方差分别为
卩1耳12和42,cr;。
当n1和
±X2〜也1±420十咗'
Vn1n2丿
只有把置信区间和假设检验结合起来,互相补充才
变量类型及样本大小选择恰当的统计分析方法;P值的意义:
H只是说差异不为
②权P值很小时“拒绝H,接受Hl”,不能把很
0,P值小只是说犯一类错误的机会远小于a是预先给定的概率,为检验水准,是定
n2均较大时,两样本均数的和与差的分布也服从(或近似服从)正态分布,X1
X—X
H。
:
气=#2,Z=,12=。
当H0成立时,这个统计量服从标准正态分布。
心1n2
★t检验与Z检验的比较:
两样本均数比较的t检验适用条件为:
样本含量小,两样本独立,来自正态总
体,
且两总体方差相等。
Z检验是大样本情况下的t检验的近似,用于两总体方差已知,或总体方差未知但样本含量较大(n1>60且n2>60)的两样本均数的比较。
样本量较大时,两种检验方法都可用。
★8假设检验与区间估计的关系:
①置信区间具有假设检验的主要功能:
在a水准上可回答差别有无统计
学意义;②置信区间可提供假设检验没有提供的信息:
根据置信区间上、下限的数值大小可判断差别是否
具有实际意义;③假设检验可提供确切的P值,置信区间只能在预先确定的置信度100(1-a)%水平上进
行推断,没有精确的概率值,且有可能增大n类错误;④置信区间推断量的大小,即推断总体均数范围;假设检验推断质的大小即推断总体均数是否存在不同。
是对问题比较的完整分析。
9假设检验的注意事项:
①根据研究目的、设计类型、衡两类错误
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卫生 统计学 知识点 总结