医学统计学知识点.docx
- 文档编号:5487801
- 上传时间:2022-12-17
- 格式:DOCX
- 页数:23
- 大小:31.89KB
医学统计学知识点.docx
《医学统计学知识点.docx》由会员分享,可在线阅读,更多相关《医学统计学知识点.docx(23页珍藏版)》请在冰豆网上搜索。
医学统计学知识点
第一章绪论
1、记录学,是关于数据收集、整顿、分析、表达和解释普遍原理和办法。
2、研究对象:
具备不拟定性成果事物。
3、记录学作用:
可以透过偶尔现象来探测其规律性,使研究结论具备科学性。
4、记录分析要点:
对的选用记录分析办法,结合专业知识作出科学结论。
5、医学记录学基本内容:
记录设计、数据整顿、记录描述、记录推断。
6、医学记录学中基本概念
(1)同质与变异
同质,指依照研究目所拟定观测单位其性质应大体相似。
变异,指总体内个体间存在、绝对差别。
记录学通过对变异研究来摸索事物。
(2)变量与数据类型
变量,是反映实验或观测对象生理、生化、解剖等特性指标。
变量观测值,称为数据
分为三种类型:
定量数据,也称计量资料,指对每个观测单位某个变量用测量或其她定量办法精确获得定量成果。
(如身高、体重、血压、温度等)
定性数据,也称计数资料,指将观测单位按某种属性分组计数定性观测成果。
涉及二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)
有序数据,也称半定量数据或级别资料,指将观测单位按某种属性不同限度或顺序提成级别后分组计数观测成果,具备半定量性质。
记录办法选用与数据类型有密切关系。
(3)总体与样本
总体,指依照研究目拟定所有同质观测单位全体,涉及所有定义范畴内个体变量值。
样本,是从研究总体中随机抽取某些有代表性观测单位,对变量进行观测得到数据。
抽样,是从研究总体中随机抽取某些有代表性观测单位。
参数,指描述总体特性指标。
记录量,指描述样本特性指标。
(4)误差
误差,指观测值与真实值、记录量与参数之间差别。
可分为三种:
系统误差,也称记录偏倚,是某种必然因素所致,不是偶尔机遇导致,误差大小普通恒定,具备明确方向性。
随机测量误差,是偶尔机遇所致,误差没有固定大小和方向。
抽样误差,是抽样引起记录量与参数间差别。
抽样误差重要来源于个体变异。
记录学重要研究抽样误差。
(5)概率
概率,是描述某事件发生也许性大小量度。
必然事件,事件必定发生,概率P(U)=1;
随机事件,事件也许发生,也许不发生,概率介于0≤P(A)≤1;
不也许事件,事件必定不发生,概率P(∮)=0;
小概率事件,事件发生也许性很小,概率P(A)≤0.05、或P(A)≤0.01。
医学科研中,P(A)≤0.05作为事物差别有记录意义,P(A)≤0.01作为事物差别有高度记录意义。
第二章定量数据记录描述
定量数据记录描述办法:
频数表、直方图、记录指标。
(1)频数分布
频数分布目:
理解数据分布范畴、集中位置以及分布形态等特性,以便依照资料分布状况选取适当记录办法。
频数分布用途:
①作为陈述资料形式;
②便于观测数据分布类型;
③便于发现数据中特大或特小可疑值;
④当样本量大时,可用各组段频率作为概率预计值。
计算全距(range,R):
是一组数据最大值与最小值之差。
R=Max-Min
拟定组数与组距
样本量在100例左右,组数选取8~15之间,普通取10组左右。
组距≈全距/组数
拟定组限
第一组段必要涉及最小值,最后一组段必要涉及最大值。
最后一组段涉及最大值,且普通状况下应包括该组段上限,别的各组段区间左闭右开。
计算各组段频数(frequency):
即计算各组段内观测值个数。
计算各组段频率(percent):
即计算各组段频数与总观测值个数之比,用百分数表达。
计算合计频数(cumulativefrequency)和合计频率(cumulativepercent):
合计频数是由上至下将频数累加;合计频率是由上至下将频率累加。
(2)直方图
直方图,是以垂直条段代表频数分布一种图形。
(3)频数分布表用途
1、作为称述资料形式,可以代替原始资料,便于进一步分析。
2、便于观测数据分布类型。
资料分布类型分为:
对称分布和偏态分布。
在记录分析时常需要依照资料分布形式选取相应记录分析办法,因而对数据分布形式鉴定非常重要。
3、便于发现资料中某些远离群体特大或特小值。
4、当样本含量比较大时,可用各组段频率作为概率预计值。
集中趋势记录指标
平均数,是描述一组观测值集中位置或平均水平记录指标,常作为一组数据代表值用于分析和进行组间比较。
惯用有算术均数、几何均数、中位数、百分位数等。
算术均数,等于一种变量所有观测值和除以观测值个数。
总体均数用希腊字母μ表达,样本均数用符号Χ拔表达。
算术均数合用于对称分布资料,如分布均匀小样本数据或近似正态分布大样本数据。
算术均数易受极端值影响,并且受极大值影响不不大于受极小值影响。
几何均数
几何均数(geometricmean,G),等于一种变量所有n个观测值乘积n次方根。
几何均数合用于取对数后近似呈对称分布资料,特别是右偏态分布数据。
医学研究中惯用于比例数据。
【注】计算几何均数观测值不能不大于或等于0,由于无法求对数。
中位数
中位数(median,M),是在按大小顺序排列变量所有观测值中,位于正中间一种或两个数值。
当数据呈偏态分布、或频数分布两端无拟定数值,均宜采用中位数描述集中趋势。
中位数拟定取决于它在数据序列中位置,因而对极端值不敏感。
百分位数
百分位数(percentile),是一种位置指标,它将一组变量值排列后划分为若干相等某些分割点数值。
用Px表达,X用百分数表达。
表达在按照升序排列数据中,其左侧(≤Px)观测值个数在整个样本中所占比例为X%,其右侧(≥Px)观测值个数在整个样本中所占比例为(100-X)%。
百分位数无论资料分布类型均可计算,在实际工作中惯用于拟定医学参照值范畴;在假设检查中用作回绝或不回绝检查假设界值。
百分位数并非由所有观测值综共计算得来,因而,它不如均数和原则差精准;然而中间某些百分位数因不受资料中个别极端数据影响,具备较好稳定性。
小结
指标
意义
合用场合
均数
个体平均值
对称分布,特别是正态分布资料。
几何均数
平均倍数
取对数后对称分布。
中位数
位次居中观测值
①非对称分布;②半定量资料;
③末端无确切数值;④分布不明。
变异限度记录指标
变异指标,又称离散指标,用以描述一组计量资料各观测值之间参差不齐限度。
变异指标越大,观测值之间差别愈大,阐明变异限度越大;反之亦然。
惯用有极差、四分位数间距、方差、原则差和变异系数。
极差
极差(range,R),等于一种变量所有观测值中最大值与最小值之间差值。
R=Max-Min
缺陷:
①没有运用观测值所有信息,不能反映其他数据离散度;
②各样本含量大小悬殊时,不适当比较其极差;
③极差抽样误差也较大,因此不够稳定。
极差仅合用于对未知分布小样本资料作粗略分析。
四分位数间距
四分位数,是记录学对特殊三个百分位数P25%、P50%和P75%统称
四分位数间距(quartilerange,Q),等于第三四分位数与第一四分位数之间差值。
Q=P75%-P25%
缺陷:
①没有运用观测值所有信息,不能反映其他数据离散度;
四分位数间距仅用来描述大样本偏态资料变异状况。
方差
方差(variance),是描述一种变量所有观测值与总体均数平均离散限度指标。
总体方差用σ2表达,样本方差用S2表达。
原则差
原则差(standarddeviation,S),是描述一种变量所有观测值与均数平均离散限度指标。
总体原则差用σ表达,样本原则差用S表达。
原则差
方差或原则差属同类变异指标,它们多用来描述均匀分布或近似正态分布资料,大、小样本均可,其中以原则差应用最广,普通与均数结合使用。
例如在许多医学研究报告中惯用X拔±S形式表达资料。
变异系数
变异系数(coefficientofvariation,CV),是一种度量相对离散限度指标。
CV是无量纲指标,可以用来比较几种量纲不同指标变量之间离散限度差别,或比较劲纲相似但均数相差悬殊变量之间离散限度差别。
小结
指标
意义
合用场合
极差
观测值取值范畴
不拘分布形式,概略分析。
四分位数
间距
居中半数观测值极差
①非对称分布;②半定量资料;
③末端无确切数值;④分布不明。
原则差
(方差)
观测值距离均数平均限度
对称分布,特别是正态分布资料。
变异系数
变异限度大小对比
①不同量纲变量间比较;
②量纲相似但数量级相差悬殊变量间比较。
第三章正态分布与医学参照值范畴
正态分布,是一种持续型随机变量常用而重要分布。
正态曲线,是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交钟型曲线。
如果随机变量X分布服从概率密度函数和概率分布函数称持续型随机变量X服从正态分布,记为X~N(μ,σ2)。
π为圆周率,
e为自然对数底值,
σ为总体原则差,
μ为总体均数。
正态分布特性
1、正态分布是单峰分布,以X=μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。
2、正态曲线在X=μ处有最大值,其值为f(μ)=1/(μ√2π);X越远离μ,f(X)值越小,在X=μ±σ处有拐点,呈现钟形。
3、正态分布完全由参数μ和σ决定。
μ是位置参数,决定正态曲线在X轴上位置。
在σ一定期,μ增大,曲线沿横轴向右移动;μ较小,曲线沿横轴向左移动。
σ是形状参数,决定正态曲线分布形态。
σ越大,曲线形状越“矮胖”,表达数据分布越分散;σ越小,曲线形状越“瘦高”,表达数据分布越集中。
正态曲线下面积分布规律
1、服从正态分布随机变量在某一区间上曲线下面积与其在同一区间上取值概率相等。
2、曲线下总面积为1或100%,以μ为中心左右两侧面积各占50%,越接近μ处曲线下面积越大,两边逐渐减少。
3、所有正态曲线,在μ左右任意个原则差范畴内面积相似。
某些特殊状况,在μ±σ范畴内面积约为68.27%,在μ±1.96σ范畴内面积约为95.00%,在μ±2.58σ范畴内面积约为99.00%。
原则正态分布
对任意一种服从N(μ,σ2)分布随机变量X,经Z=X-μ/σ
变换都可以转为μ=0、σ=1原则正态分布,也称随机变量原则化变换。
原则正态分布应用
实际应用中,经z变换可把求解任意一种正态分布曲线下面积问题,转化成原则正态分布曲线下相应面积问题。
正态分布应用
1、制定医学参照值范畴
2、质量控制
3、正态分布是诸多记录办法理论基本
医学参照值范畴
医学参照值范畴,指正常人解剖、生理、生化、免疫及组织代谢产物含量等各种数据波动范畴。
医学参照值范畴,习惯上是包括95%参照总体范畴。
制定注意事项
a、抽取足够例数同质“正常人”样本
★“正常人”定义,样本量(n>120),随机化。
b、拟定具备实际意义统一测量原则
★指标测量办法等要有规定,控制测量误差。
c、依照指标性质拟定与否要分组
★依照实际状况、专业知识。
d、依照指标含义决定单、双侧范畴
★单侧下限,过低异常;单侧上限,过高异常;双侧,过高、过低均异常。
e、选取恰当百分范畴
★绝大多数人,普通80%、90%、95%、99%;
★减少误诊,取较大范畴;减少漏诊,取较小范畴。
f、预计参照值范畴
★依照资料分布类型:
正态分布法、百分位数法。
第四章定性数据记录描述
相对数,是两个关于绝对数之比,也可以是两个记录指标之比。
计算相对数意义重要是把基数化作相等,便于互相比较。
相对数重要用于定性资料记录描述。
惯用指标有频率、构成比、相对比。
频率
频率(rate),表达在一定范畴内某现象发生数与也许发生总数之比,阐明某现象浮现频率或概率。
总体率用π来表达,样本率用P来表达。
需要注意是,率在更多状况下是一种具备时间概念指标,即用于阐明在一段时间内某现象发生强度或频率。
构成比
构成比,表达某事物内部各构成某些在整体中所占比重。
构成比之和应为100%,某一构成某些增减会影响其她构成某些相应减少或增长;而某一某些率变化并不影响其她某些率变化,且其平均率不能简朴地将各率相加后平均求得。
相对比
相对比,是A、B两个关于联指标之比,用以描述两者对比水平。
相对危险度(relativerisk,RR),用于流行病学中队列研究资料。
比数比(oddsratio,OR),用于流行病学中病例对照研究资料。
小结
指标
计算公式
合用场合
频率
n/N
预计总体中某一结局发生概率或也许性
构成比
n1/N,n2/N,…,nk/N
预计总体中所有也许结局所占比例或比重
相对比
A/B
预计两个指标相对大小
构成比表达某事物内部各某些所占比例或比重,频率是表白某现象发生频率或概率。
构成比分子中个体一定是分母中一某些,而相对比则不一定;构成比是同一类事物数值之比,相对比可以是任意两个数值之比。
相对数使用注意
a、区别构成比和频率
★频率,强度相对数;构成比,构造相对数。
b、使用相对数时分母不适当过小
★如分母太小,用绝对数表达,如“3例中死亡1例”。
c、注意相对数可比性
★研究对象要同质,办法要相似,观测时期要一致等。
d、考虑存在抽样误差
★对总体进行推断应作记录学检查。
率原则化
原则化率,是为了在比较两个不同人群患病率、发病率、死亡率等资料时,消除内部构成(如年龄、性别、工龄、病程长短等)不同而不能直接比较所产生影响。
原则化率仅用于互相比较,不代表实际水平;当原则构成不同步,原则化率普通也不相似。
原则构成选用
★从外部取一种公认原则构成比,如全国范畴或全省范畴数据、国际间比较时取世界通用原则。
★将几种组观测例数合并,计算出合并构成比,以其作为原则构成比。
★取某一种组构成比为原则构成比。
医学中惯用相对数指标
死亡率,又称粗死亡率,表达某年某地每千人中死亡人数。
反映本地居民总体死亡水平。
对不同地区死亡率进行比较时,应注意不同地区人口年龄或性别构成影响。
若年龄或性别构成存在差别,需先将死亡率标化后再进行比较。
年龄别死亡率,表达某年某地某年龄组每千人口中死亡数。
死因别死亡率,表达某年某地每10万人中因某种疾病死亡人数。
反映各类病伤死亡对居民生命危害限度。
死亡(因)构成,也称相对死亡比,表达所有死亡人数中,死于某死因者占总死亡数比例。
反映各种死因相对重要性。
疾病记录指标
发病率,表达在一定期间内,一定人群中某病新发生病例浮现频率。
反映疾病对人群健康影响和描述疾病分布状态一项测量指标。
患病率,也称现患率,表达某一时点某人群中患某病频率。
反映病程较长慢性病发生或流行状况。
病死率,表达某期间内,某病患者中因某病死亡频率。
反映该疾病严重限度和医疗水平。
治愈率,表达接受治疗病人中治愈频率。
第五章登记表与记录图
登记表,把反映某事物数量特性以及互有关系记录数字用表格形式归纳起来。
特点:
①避免冗长文字论述、减少篇幅;
②便于表达事物间内在联系和区别;
③便于分析、比较并易于发现和纠正错误。
编制原则
a、重点突出,简朴明了
★一张表表达一种中心内容或主题。
b、主谓分明,层次清晰
★定语在标题内,主语作为横标目,谓语作为纵标目。
c、数据表达规范、文字和线条从简
结构
a、标题
★位于登记表最上部,应涉及表编号。
b、标目
★纵标目的示相应一列(或数列)内容;横标目的示相应行内容。
c、线条
★不适当太多,普通为三线表;
★不容许使用竖线与斜线。
d、数字
★一律使用阿拉伯数字;
★同一指标小数位数应一致,位次要对齐;
★数值为零时应写“0”,缺省用“…”表达,不存在或不需要用“—”表达。
e、备注
★不是登记表必要项目,需要时才用;
★位于登记表最下部,表格之外,用“*”号标出。
记录图
记录图,是指用几何图形(点、线段、直条等)显示记录指标大小、对比关系或变化趋势。
特点:
与登记表相比,记录图更加直观,更便于比较和分析。
但它不能确切地显示数字大小,因而常与登记表一并使用。
惯用记录图有:
条图、圆图、百分条图、线图、直方图等。
制作原则
a、依照资料性质、分析目选用恰当记录图
b、一种图表达一种中心内容或主题。
c、图形应精确、美观。
结构
a、标题
★位于记录图下方,应涉及图编号。
b、图域
★普通用直角坐标系第一象限位置表达图域。
c、标目
★纵标目和横标目,表达纵轴和横轴数字刻度;
★普通有度量衡单位。
d、图例
★对图中不同颜色或图案代表指标进行注释;
★图例放在横标目与标题之间,或放在图域中。
e、刻度
★刻度数值从小到大,纵轴由下向上,横轴由左向右。
描述定量数据记录图
直方图,用于表达持续变量频数分布状况。
线图,合用于描述一种变量随另一种变量变化趋势。
半对数线图,用来比较事物之间相对变化速度。
箱图,合用于比较多组资料集中趋势和离散趋势。
普通选用五个描述记录量(Min、P25、M、P75、Max)来绘制。
误差条图,合用于比较多组资料均值和可信区间。
散点图,用点密集限度和变化趋势来表达两指标之间直线或曲线关系。
条图,合用于各组资料之间指标比较。
圆图,描述一组构成比资料。
百分条图,描述多组构成比资料
小结
图形
重要目
说明
条图
比较各组之间记录指标差别
一种坐标轴为组名称,另一种坐标轴为频率;各种指标变量可放在一种图中
圆图
描述变量构成比
没有坐标轴;用图例区别各某些
百分条图
比较各种指标变量构成比
一种坐标轴为各变量名称,另一种坐标轴刻度为0~100%;用图例区别各某些
线图
描述一种变量随另一种变量变化趋势
两个变量观测值必要一一相应;横轴为自变量,纵轴为因变量
半对数线图
同上
因变量变异较大时使用;其她同上
箱图
比较一种变量在各种组上分布
一种坐标轴为组名称,另一种坐标轴为该变量取值
散点图
描述两个指标变量之间直线有关关系
两个变量观测值可以不一一相应;横轴为自变量,纵轴为因变量
第六章参数预计
抽样误差:
由个体差别和抽样导致样本记录量与总体参数差别。
涉及:
样本记录量与总体参数间差别,样本记录量间差别。
具备如下特点:
1、各样本均数未必等于总体均数;
2、各样本均数间存在差别;
3、样本均数分布环绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;
4、样本均数变异范畴较之原变量变异范畴小;
5、随着样本含量增大,样本均数变异范畴逐渐缩小。
均数原则误
原则误(standarderror,SE),指样本记录量原则差。
均数原则误(standarderrorofmean,SEM),指样本均数原则误。
它反映样本均数间离散限度,反映样本均数与相应总体均数间差别,阐明了均数抽样误差大小。
在n一定状况下,原则误与原则差呈正比,阐明当总体中各观测值变异较小时,抽到X拔与μ也许相差较小,X拔用预计μ可靠限度高;反之,当总体中各观测值变异较大时,可靠限度较低。
原则误与样本含量平方根呈反比,阐明在同一总体中随机抽样,n越大,原则误越小。
率抽样误差
率原则误(standarderrorofrate,SER),指样本率原则误。
它反映样本率间离散限度,反映样本率与相应总体率间差别,阐明了率抽样误差大小。
总体率原则误用σp表达,样本率原则误用Sp表达。
总体均数预计
概述
点预计(pointestimation),是用样本记录量直接作为其总体参数预计值。
区间预计(intervalestimation),是按预先给定概率(1-α)所拟定包括未知总体参数一种范畴。
点预计:
长处:
表达简朴缺陷:
未考虑抽样误差,无法评价参数预计精确限度
可信区间
在区间预计中,预先给定概率(1-α),称为可信度(confidencelevel),常取95%或99%。
通过可信度,计算得到区间范畴,称为可信区间(confidenceinterval,CI)。
可信区间由两个数值界定可信限(confidencelimit,CL)构成,较小数值为下限(lowerlimit,L),较大数值为上限(upperlimit,U),普通表达为L~U。
可信度为95%可信区间涵义:
若重复100次样本含量相似抽样,每个样本均按同一办法构建95%可信区间,则理论上平均有95个可信区间包括了总体均数,只有5个可信区间未包括。
可信区间预计优劣:
精确性,反映可信度1-α大小,其值越接近1越好。
精准性,用可信区间宽度CU-CL衡量,宽度越小越好。
t分布
t分布:
重要用于总体均数区间预计和t检查等。
ν为自由度(degreeoffreedom,df),指可以自由取值变量个数。
t分布特点:
1、t分布图是一簇曲线,曲线形态变化与自由度关于。
2、随ν增大,曲线越来越接近原则正态分布曲线;
3、当ν→∞时,t分布极限分布就是原则正态分布。
4、t分布密度曲线下面积有一定规律性。
在t界值表中,横标目为自由度,纵标目为尾部概率。
一侧尾部面积称为单侧概率(one-tailedprobability),两侧尾部面积之和称为双侧概率(two-tailedprobability)。
从t界值表中看出:
在相似自由度时,│t│值越大,概率P越小。
小结
预计绝大多数观测对象某项指标分布范畴
预计总体均数
用途
n越大,参照值范畴越稳定
n越大,CI越小;n→∞,CI→0
样本量
作用
正态分布:
±zα/2S(双侧)
偏态分布:
Px~P100-x(双侧)
σ未知:
σ已知或σ未知但n>60:
计算
公式
“正常人”解剖,生理,生化等某项指标波动范畴。
个体值波动范畴
按预先给定概率拟定未知参数μ也许范畴。
总体均数波动范畴
含义
参照值范畴
总体均数可信区间
区别点
两总体均数差值区间预计
在实际工作中,经常需要预计两总体均数之差μ1-μ2大小,需预计两总体均数差值可信区间。
总体率区间预计
小样本率区间预计:
在样本例数较小,且样本率接近1或0时,运用二项分布可预计其总体率(1-α)可信区间。
当n≤50,样本例数n和阳性例数X≤n/2时,直接查表得到95%和99%可信区间。
当阳性例数X>n/2时,用n-X查表,获得总体阴性率可信区间,再用1减去总体阴性率可信区间,既为总体阳性率可信区间。
大样本率区间预计
在样本例数较大,且p和1-p均不太小,如np与n(1-p)均不不大于5时,样本率p抽样分布近似正态分布,可按正态分布近似法求总体率(1-α)可信区间。
两总体率差值区间预计
设两样本率分别为p1和p2,当n1与n2均较大,且p1,1-p1及p2,1-p2均不太小,如n1p1、n1(1-p1)、n2p2、n2(1-p2)均不不大于5时,可采用正态近似法对两总体率差值进行可信区间预计。
第七章假设检查
假设检查(hypothesistesting)也称明显性检查(significancetest),是用来判断样本与样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 知识点