医学统计名词解释.docx
- 文档编号:7876138
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:7
- 大小:21.38KB
医学统计名词解释.docx
《医学统计名词解释.docx》由会员分享,可在线阅读,更多相关《医学统计名词解释.docx(7页珍藏版)》请在冰豆网上搜索。
医学统计名词解释
医学统计名词解释
1(总体:
总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:
从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
2(随机抽样:
随机抽样(randomsampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3(变异:
在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4(等级资料:
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。
等级资料又称有序资料。
如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。
5(概率:
概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。
0,P(A),1。
频率:
在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。
当试验重复很多次时P(A)=m/n。
6.随机误差:
随机误差(randomerror)又称偶然误差,是指排除了系统误差后尚存的误差。
它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。
误差变量一般服从正态分布。
随机误差可以通过统计处理来估计。
7(系统误差:
系统误差(systematicerror)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。
系统误差可以通过实验设计和完善技术措施来消除或使之减少。
8(随机变量:
随机变量(randomvariable)是指取指不能事先确定的观察结果。
随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
9(参数:
参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
10(统计量:
统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
1.答案:
频数表(frequencytable)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2„20个病人的天数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
2.答案:
算术均数(arithmeticmean)描述一组数据在数量上的平均水平。
总体均数
X用μ表示,样本均数用表示。
3.答案:
几何均数(geometricmean)用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G。
4.答案:
中位数(median)将一组观察值由小到大排列,n为奇数时取位次居中的变量
值;为偶数时,取位次居中的两个变量的平均值。
5.答案:
极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
6.答案:
百分位数(percentile)是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。
百分位数的另一个重要用途是确定医学参考值范围。
7.答案:
四分位数间距(inter-quartilerange)是由第3四分位数和第1四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。
8.答案:
方差(variance):
方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
9.答案:
标准差(standarddeviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
10.答案:
变异系数(coefficientofvariation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV表示。
1(正态曲线:
正态曲线(normalcurve)是函数
221,(X,,)(2,)()fX,e,,,X,,,,
2,
对应的曲线。
此曲线呈钟型,两头低中间高,左右对称。
2(正态分布:
若指标的频率曲线对应于数学上的正态曲线,则称该指标服从正态分X
2布(normaldistribution)。
通常用记号表示均数为,标准差为的正态分布。
N(,,,),
3(标准正态分布:
均数为0、标准差为1的正态分布被称为标准正态分布(standard
2normaldistribution),通常记为。
N(0,1)
X,24(标准化变换:
,此变换有特性:
若X服从正态分布,则就N(,,,)u,u,
服从标准正态分布,故该变换被称为标准化变换(standardizedtransformation)。
a)统计推断:
通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statisticalinference)。
b)抽样误差:
由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(samplingerror)。
,c)标准误及:
通常将样本统计量的标准差称为标准误。
许多样本均数的标准差XX称为均数的标准误(standarderrorofmean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
d)可信区间:
按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间(confidenceinterval,CI)。
它的确切含义是:
可信区间包含总体参数的可能性是1-,而不是总体参数落在该范围的可能性为1-。
,
e)参数估计:
指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:
点估计和区间估计。
f)假设检验中P的含义:
指从H规定的总体随机抽得等于及大于(或等于及小于)0
现有样本获得的检验统计量值的概率。
g)I型和II型错误:
I型错误(typeIerror),指拒绝了实际上成立的H,这类“弃真”0的错误称为I型错误,其概率大小用表示;II型错误(typeIIerror),指接受了实际上不成,
立的H,这类“存伪”的误称为II型错误,其概率大小用表示。
0
h)检验效能:
1-称为检验效能(poweroftest),它是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。
i)检验水准:
,是预先规定的,当假设检验结果拒绝H,接受H,下“有差别”的01
结论时犯错误的概率称为检验水准(levelofatest),记为。
1(均方:
均方差(MS)或方差,是由离均差平方和被自由度相除而得。
2(方差分析:
方差分析(analysisofvariance,ANOVA)就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释。
通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对观测指标有无影响。
3(总变异:
样本中全部实验单位差异称为总变异。
其大小可以用全部观察值的均方(方差)表示。
4(组间变异:
各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其大小可用组间均方表示。
5(组内变异:
各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。
6(完全随机设计:
只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应,这种设计叫做完全随机设计。
7(随机区组设计:
事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受试对象数与处理因素的水平数相等。
然后再将每个区组内的观察对象随机地分配到各处理组,这种设计叫做随机区组设计。
1.相对数(relativenumber)是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。
2.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。
计算公式为:
发生某现象的观察单位数,表示方式有:
百分率(%)、千分率(?
)率,,100%可能发生某现象的观察单位总数等。
3.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分
某一组成部分的观察单位数布。
计算公式为:
,表示方式有:
百构成比,,100%同一事物各组成部分的观察单位总数
分数等。
4.比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分A
比,之几。
计算公式为:
,表示方式有:
倍数或分数等。
B
5.标准化法(standardizationmethod)是常用于内部构成不同的两个或多个率比较的一种方法。
标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
6.动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
7.时点动态数列是依据指标在时间方面的特点划分的一种动态数列,各个指标是在时点上的数据,如历年人口数、性别比例、现场调查中的患病人数、时点患病率等。
8.定基比即统一用某个时间的指标作基数,其它各时间的指标与之相比。
9.环比即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。
10.平均增长速度是用于概括某一时期的平均速度变化,即该时期环比的几何均数减1,
n其计算公式为:
平均增长速度,平均发展速度,1,aa,10n
1.二项分布:
若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为
nkn,kP(X,k),(),(1,,)k
则称此随机变量X服从以n、π为参数的二项分布(BinomialDistribution),记为X,B(n,π)。
2.Poisson分布:
若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为
k,,,P(X,k),e(μ>0)!
k
则称随机变量X服从以μ为参数的Poisson分布(PoissonDistribution),记为X,P(μ)。
3.Bernoulli试验:
将感兴趣的事件A出现的试验结果称为“成功”,事件A不出现的试验结果称为“失败”,这类试验就称为Bernoulli试验(BernoulliTest)。
1(实际频数:
actualfrequency,即实际观察值。
理论频数:
theoreticalfrequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。
22222(界值表:
将分布右侧尾部面积等于时所对应的值称为分布的临界值,,,,,,
2对于不同的自由度及有不同的临界值,由这些临界值构成的表即界值表。
,
3(拟合优度:
goodnessoffit,指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。
4(配对四格表:
为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A处理,另一个接受B处理,每种处理的反应都按二项分类。
全部n对实验结果的资料以表8-12表示,这样的表称为配对四格表。
表8-12配对四格表的形式
B处理A处理+-
+aB
-cD
A.双向有序分类资料:
对于RC表资料,当两个定性变量都有序时,这样的资料称,
为双向有序分类资料,如“急性放射病分度与放射烧伤面积占不同体表面积的百分比”,这里的两个变量均为有序的。
B.率的标准误:
用以衡量由于抽样引起的样本率与总体率之间的误差的统计量,记为
(1,,),。
,为总体率,n为样本容量;当总体率未知时,以样本率P作,,,,pPn
pp(1,)S为的估计值,率的标准误为。
,pn
C.多个率的两两比较:
指当假设检验确定了多个率之间存在差别后,检验哪两个两个样本率之间的差别具有统计学意义的方法。
D.Fisher精确概率:
指当四格表中出现理论数小于1或n<40时,用R.A.Fisher(1934)提出的方法直接计算出的有利于拒绝H的概率。
0
E.McNemar检验:
McNemar’stestforcorrelatedproportions,是分析配对四格表资料
2b,c,
(1)2,的方法,其计算公式为,v=1。
b,c
210(Yates校正:
英国统计学家YatesF认为,由于分布理论上是一连续性分布,而,
2分类资料是间断性的,由此计算出的值不连续,尤其是自由度为1的四格表,求出的概,
2率P值可能偏小,此时需对值作连续性校正(correctionofcontinuity),这一校正即所谓,
的Yates校正(Yates’correction)。
i.非参数统计:
针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。
由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。
ii.参数统计:
通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametricstatistics)
iii.秩次:
变量值按照从小到大顺序所编的秩序号称为秩次(rank)。
iv.秩和:
各组秩次的合计称为秩和(ranksum),是非参数检验的基本统计量。
1(直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。
2(回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。
2ˆ3(剩余平方和(residualsumofsquares),SS即,它反映X对Y的线性,,,YY剩,
影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。
在散
2ˆ点图中,各实测点离回归直线越近,也就越小,说明直线回归的估计误差越小。
,,,YY,
2ˆ4(回归平方和(regressionsumofsquares),SS即,它反映由于X与Y,,,YY回,
的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。
回归平方和越大,说明回归效果越好。
5(直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。
有正相关、负相关和零相关等关系。
直线相关的性质可由散点图直观的说明。
6(零相关(zerrocorrelation)是指两变量间没有直线相关关系。
1(相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。
它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
22SSlll回2XYXYXX2(决定系数(coefficientofdetermination)即r的平方,,r,,,lllSSXXYYYY总说明当SS固定不变时,回归平方和的大小决定了r平方的大小。
回归平方和越接近总平总
方和,则r平方值越接近1。
3(曲线直线化(rectification)是曲线拟合的重要手段之一。
对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。
1(秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:
?
不服从双变量正态分布而不宜作积差相关分析;?
总体分布型未知;?
用等级表示的原始数据。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计 名词解释