医学统计学总结Word版.docx
- 文档编号:29409580
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:40
- 大小:161.57KB
医学统计学总结Word版.docx
《医学统计学总结Word版.docx》由会员分享,可在线阅读,更多相关《医学统计学总结Word版.docx(40页珍藏版)》请在冰豆网上搜索。
医学统计学总结Word版
医学统计学总结
一.绪论
1,医学统计学:
运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:
1)统计研究设计调查研究设计和实验研究设计
2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:
资料的搜集与整理B:
常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图C:
统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:
1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料
A,搜集材料的原则及时、准确、完整
B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存
3)整理资料a检查核对b设计分组c拟定整理表d归表
4)分析资料统计分析包括统计描述和统计推断
4,同质(homogeneity):
指被研究指标的影响因素相同。
变异(variation):
同质基础上的各观察单位间的差异。
变量(variable):
收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量
变量值:
变量的观察结果或测量值。
变量类型
变量值表现
实例
资料类型
数值变量
离散型
定量测量值,有计量单位
产前检查次数
计量资料
连续型
身高
分类变量
无序
二分类
对立的两类属性
性别(男女)
计数资料
多分类
不相容的多类属性
血型(A,B,O,AB)
有序
多分类
类间有程度差异的属性
受教育程度(小学,中学,高中,大学…)
等级资料
5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:
同质性
样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性。
代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(
样本率,
样本均数,
样本标准差)。
参数(parameter)描述总体变量值特征的指标(
总体率,
标准差,
总体均数)。
抽样误差(samplingerror):
由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。
这种因抽样研究引起的差异称抽样误差。
随机事件(randomevent)对随机试验的各种可能结果的集合。
概率(probability)描述随机事件发生的可能性大些哦的一个度量。
小概率事件若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机试验中认为不会发生。
抽样误差
1,抽样误差(samplingerror)由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。
在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差。
2,样本均数的标准差
(简称标准误,standarderror)反映均数的抽样误差大小的指标。
大,抽样误差大;反之,
小,抽样误差小。
(3.1)
实际工作中
往往未知的,可用样本标准差s作
的估计值,计算标准误的估计值
。
(3.2)
3,标准误的用途:
a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。
4,标准误的估计值
的用途:
a,描述抽样误差的大小;
b,总体参数的估计;
c,用来进行假设检验。
5,率的抽样误差:
由抽样造成的样本率与总体率的差异称为率的抽样误差。
衡量率的抽样误差大小的指标是率的标准误
。
越小,率的抽样误差越小;
越大,率的抽样误差越大。
(3.3)
其中
为总体率。
实际工作中,由于
往往是未知的,可用样本率p作
的估计值,计算率的标准误
的估计值
。
(3.4)。
标准差(s)
标准误
计算公式s=
(1)表示观察值的变异程度
(1)估计均数的抽样误差的大小
(2)计算变异系数CV=
100%
(2)估计总体均数的可信区间
(
,
)
(3)确定医学参考值范围
(3)进行假设检验
(4)计算标准误
简述标准差、标准误的区别与联系?
区别:
(1)含义不同:
标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误
估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:
标准误:
二.分布
正态分布
1,正态分布的函数
其中
为总体均数,
为总体标准差,
为圆周率,
为自然对数的底,且仅
为变量。
以
为横轴,以
为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中
进行变量变换,使原来的正态分布变为
的标准正态分布,亦称
分布。
被称为标准正态变量或标准正态离差,将
代入上述公式即得标准正态分布的密度函数
。
(2.17)
(2.18)
2,正态分布的特征
(1)正态曲线(normalcurve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数
(位置)和标准差
(形状)。
当
固定不变时,
越大,曲线沿横轴越向右移动;反之,
越小,则曲线沿横轴越向左移动。
当
固定不变时,
越大,曲线越平阔;
越小,曲线越尖峭。
通常用N(
,
)表示均数为
、方差为
的正态分布。
用(0,1)表示标准正态分布。
(4)正态分布在
1
处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间:
1.96
及
2.58
的区间面积分别占总面积的95%及99%。
4,正态分布的应用
1),制定医学参考值范围
a,正态分布法适用于正态或近似正态分布的资料双侧界值:
;单侧上界:
,或单侧下界:
。
b,对数正态分布法适用于对数正态分布资料双侧界值:
;单侧上界:
,或单侧下界
c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。
双侧界值:
和
;单侧上界:
,或单侧下界:
。
2)正态分布是多种统计方法的理论基础如t分布,F分布,
分布都是在正态分布的基础上推导出来的,
分布也是以正态分布为基础的。
另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。
t分布
1,t分布:
(3.5)
t分布的特征为:
1.以0为中心,左右对称的单峰分布。
2.t分布曲线形态变化与自由度的大小有关。
自由度
越小,则t值越分散,曲线越低平;自由度
逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。
当
=
时,t分布为u分布。
t界值表附图中非阴影部分面积的概率为:
2,总体均数的估计:
用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。
总体均数的估计有2种方法。
一是直接用统计量
估计总体参数
,称为点值估计。
由于抽样误差的存在,此法很难估计准确。
二是区间估计(intervalestimation)法。
区间估计是按一定的概率100(1-
)%估计总体均数所在的范围,亦称可信区间(confidenceinterval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方法有3种:
(1)
未知且n小按t分布原理用式(3.6)计算可信区间。
由于
将
代入,得
则总体均数的100(1-
)%可信区间的通式为:
(3.6)或写成(
,
)。
(2)
未知,但n足够大时(n>100)t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
(
)(3.7)
(3)
已知按正态分布原理,用式(3.8)估计可信区间。
(
)(3.8)
标准正态分布(u分布)与t分布有何异同?
答:
相同点:
t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:
t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布
1,二项分布(binomialdistribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
二项分布概率公式:
(3.9)
式中n为独立的贝努力试验次数,
为成功的概率,(1-
)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,
表示在n次试验中出现X的各种组合数,在此称为二项系数(binomialcoefficient)。
2,二项分布的应用条件:
(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为
,其对立结果的概率为1-
,实际工作中要求
是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:
A,二项分布的均数和标准差在二项分布的资料中,
当
和n已知时,它的均数
及其标准差
如下:
=n
(3.11)
(3.12)
若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:
(3.13)
(3.14)
是样本率的标准误的理论值,当
未知时,常用样本率p作为
的估计值,则:
(3.15)
B,二项分布的累计概率二项分布的累计概率(cumulativeprobability)常用的有左侧累计和右侧累计2种方法。
从阳性率为
的总体中随机抽取n个个体,则
(1)最多有k例阳性的概率
(3.16)
(2)最少有k例阳性的概率
(3.17)
D,二项分布的形状取决于
和n的大小:
(1)当
=0.5时,分布对称;当
<0.5时,分布呈正偏态,且固定n时,
越小,分布越偏;当
>0.5时,分布呈负偏态,且固定n时,
越大,分布越偏。
(2)对固定的
,分布随n的增大趋于对称。
4,总体率的估计
总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围。
样本率的理论分布和样本含量n、阳性率p的大小有关,所以需要根据n和p的大小不同,分别选用下列2种方法。
(一)查表法当样本含量n较小,如n≤50,特别是p很接近于0或1时,按二项分布的原理估计总体率的可信区间。
(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率的p的抽样分布近似正态分布,总体率
的可信区间可按下列式(3.17)进行估计。
(3.17)
Poisson分布
1,Poisson分布泊松分布是在
很小,样本含量n趋向于无穷大时,二项分布的极限形式。
更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。
X=0,1,2
(3.19)
式中
=n
为Poisson分布的总体均数,X为单位时间或单位空间内某事件的发生数,e为自然对数的底,约等于2.71828。
在实际运算中,P(X)亦可按式(3.20)作递推计算。
(3.20)
2,Poisson分布应用条件:
A,要求事件的发生是相互独立
B,发生的概率相等
C,结果是二分类
3,Poisson分布的性质:
A,该分布是一种单参数的离散型分布,其参数为
,它表示单位时间或空间内某件事平均发生的次数,又称强度参数。
B,Poisson分布的方差
和均数
相等,即
=
C,Poisson分布的累计概率
(1)最多为k次的概率
(2)最少为k次的概率
4,Poisson分布的图形
已知
,就可按公式计算得出X=0,1,2,
时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson分布的图形。
值越小,分布越偏,随着
的增大,分布越趋于对称,当
=20时,分布接近正态分布,当
=50时,可以认为Poisson分布呈正态分布N(
,
)按正态分布处理。
5,Poisson分布具有可加性
6,总体参数的估计
由样本均数(样本计数)X估计总体均数
也有点(值)估计和区间估计,区间估计的方法,需视样本计数(样本均数)X的大小而定,X小时用查表法,X大时用正态近似法。
(一)查表法
当样本计数X
时,用X值查附表poisson分布
的可信区间,可得总体均数
的95%或99%可信区间。
(二)正态近似法
当样本计数X>50时,可用正态近似原理下面公式求总体均数
的95%或99%可信区间
正态分布、二项式和泊松分布的关系:
二项分布(binomialdistribution):
对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
Poisson分布是在π很小,样本含量n趋于无穷大时,二项分布的极限形式。
当v=∞时,t分布即为u分布,趋向正态分布。
可信区间与参考值范围的区别:
意义、计算公式和用途均不同。
(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。
而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。
(2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。
(3)从意义来看,95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。
(4)从计算公式看,若指标服从正态分布,95%参考值范围的公式是:
±1.96s。
总体均数95%可信区间的公式是:
。
前者用标准差,后者用标准误。
前者用1.96,后者用α为0.05,自由度为v的t界值。
(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。
简述检验假设与可信区间的联系与区别。
答:
(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。
前者估计总体参数的大小,后者推断总体参数有无质的不同。
(2)可信区间也可回答假设检验的问题。
但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。
(3)可信区间还可提示差别有无实际意义。
统计图表
1,绘制统计图的基本要求:
A,根据资料性质和分析目的据顶适当图形。
B,标题应说明资料的内容、时间和地点,一般位于图的下方。
C,图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。
D,为使图形美观并便于比较,统计图的长宽比例一般为7:
5,有时为了说明问题也可以变动。
E,比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。
2,常用统计图的适用条件与绘制
1.条图(bargraph)用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之间的对比关系。
2.圆图(piegraph)圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。
3.百分条图(percentbar)意义及适用资料同圆图,也称构成条图。
4.线图(linegraph)线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一事物随另一食物(时间)而变动的情况。
5.直方图(histogram)直方图用于表达连续性资料的频数分布。
6.散点图(scatterdiagram)散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。
常用在对资料进行相关分析之前适用。
单变量资料
一,数值变量
统计描述
1,频数表的编制求全距定组段和组距列频数表画频数图
2,频数分布的两个重要特征:
集中趋势和离散趋势
3,频数分布可以分为正态分布和偏态分布
4,频数表的用途:
揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或者特小的可疑值。
5,集中趋势的描述:
均数几何均数中位数百分位数
6,均数(mean):
算术均数的简称。
常用
=
=
表示。
7,中位数(median):
一组由小到大按顺序排列的观察值中位次居中的数值,用M表示。
可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。
8,百分位数(percentile)是一种位置指标,用
表示。
一个百分位数P
将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。
可用于确定非正态分布资料的医学参考值范围。
9,离散趋势的描述:
全距(range)四分位数间距(quartile)方差标准差
10,全距(range)亦称极差,为一组同质观察值中最大值和最小值之差。
反映个体差异的范围,优点是计算简单,缺点是:
1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量相差悬殊时不宜用全距比较。
11,四分位数间距(quartile)上四分位数与下四分位数之差。
常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。
12,方差(variance)离均差的平方和表示。
13,标准差(standardvariance)的作用:
a,估计变量值的离散程度b,计算变异系数c,与均数结合,估计变异值的频数分布范围d,计算标准误
(总体)s=
(样本)
14,变异系数(coefficientofvariation)常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。
CV=
100%
假设检验
1,假设检验(hypothesistest)亦称显著性检验(significancetest),其基本思想是先对总体的参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。
2,假设检验的一般步骤:
(1)建立假设和确定检验水准:
根据实际情况确定单、双侧检验,建立假设,确定检验水准;
(2)选定检验方法和计算统计量:
根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;
(3)确定P值并做出推断结论。
若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义
3,假设检验时应注意的事项:
(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;
(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;
(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。
(4)检验假设的推断结论为概率结论,不能绝对化:
检验水准人为规定,是相对的,报告结论时应列出检验统计量和P值的确切范围。
(5)注意是单侧检验还是双侧检验
I型错误和II型错误:
I型错误(typeIerror)拒绝了实际上成立的
,即样本原本来自
的总体,由于抽样的偶然性得到了较大的t值,所以拒绝了
,接受了
,这类弃真错误称为第一类错误,犯第一类错误的概率是
。
II型错误(typeIIerror)是不拒绝实际上不成立的
,即“存伪”即样本原本来自
的总体,但是由于抽样的偶然性,得到了较小的t值,得到了较大的P值,没有拒绝
,这类存伪错误称为第二类错误,犯第二类错误的概率是1-
正态性检验:
用均数和标准差描述资料的分布特征,对例数n较小的样本进行t检验时,首先要求样本取自正态分布的总体。
两个方差的齐性检验:
两样本均数比较的t检验和多个样本均数比较的方差分析要求各样本所来自的总体方差相等。
两样本方差的齐性检验:
(4.12)
式中
为较大的样本方差,
为较小的样本方差,
为分子的自由度,
为分母的自由度,相应的样本例数分别为
和
。
当两总体方差齐同时,F值一般不会离1太远;若算得的F值较大,大于我们规定的界值时,就认为两样本所在总体的方差不齐。
t检验
t检验:
常用于总体标准差未知且样本含量较小时样本均数与总体均数的比较,成组设计的两个小样本的均数的比较及配对设计的两样本均数的比较。
t检验的应用条件:
a,n≤50b,样本来自正态分布的总体c,两样本均数比较时要求两样本总体方差相等。
1,单样本t检验(onesamplet-test):
样本均数与已知总体均数比较,目的是推断样本所代表的未知总体均数
与已知总体均数
有无差别。
(
)(4.1)
式中
为样本均数,
为已知总体均数,s为样本标准差,n为样本含量,
为自由度。
步骤如下(可为u检验)
1)建立假设,确定检验水准。
H0:
μ=μ0H1:
μ≠μ0
α=0.05
2)计算统计量。
已知,(总体均数)μ0=,n=,
=,s=
3)确定P值,做出推断结论。
按v=n-1,查t界值表,得P>0.05(或P<0.05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?
与?
有差异。
2,配对设计资料的t检验分为3种情况:
①将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等),再随机分配每对中的2个受试对象到不同的处理组;②同一受试对象分别接受2种不同处理,其目的是推断2种处理的效果有无差别;③同一受试对象处理前后的比较,其目的是推断某种处理有无作用。
配对设计资料的t检验(pairedt-testfordependentsamples)的基本思路:
首先计算出各对差值d的均数
,当2种处理结果无差别或某种处理不起作用时,理论上差值的总体均数
应该为0,故可将配对设计资
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 总结 Word