医学统计知识点整理.docx
- 文档编号:27103150
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:18
- 大小:128.62KB
医学统计知识点整理.docx
《医学统计知识点整理.docx》由会员分享,可在线阅读,更多相关《医学统计知识点整理.docx(18页珍藏版)》请在冰豆网上搜索。
医学统计知识点整理
医学统计学知识点整理
第一节统计学中基本概念
一、同质与变异
同质:
统计研究中,给观察单位规定一些相同得因素情况。
如儿童得生长发育,规定同性别、同年龄、健康得儿童即为同质得儿童。
变异:
同质得基础上个体间得差异。
“同质”就是相对得,就是客观事物在特定条件下得相对一致性,而“变异”则就是绝对得
二、总体与样本
1、总体:
就是根据研究目得所确定得,同质观察对象(个体)所构成得全体。
2、样本:
就是从总体中随机抽取得部分观察单位变量值得集合。
三、参数与统计量
总体参数:
根据总体个体值统计计算出来得描述总体得特征量。
用希腊字母表示。
μ、δ、π
样本统计量:
根据样本个体值统计计算出来得描述样本得特征量。
用拉丁字母表示。
X、S。
p
总体参数一般就是不知道得,抽样研究得目得就就是用样本统计量来推断总体参数,包括区间估计与假设检验
四、误差:
实测值与真值之差★
1.随机误差:
就是一类不恒定得、随机变化得误差,由多种尚无法控制得因素引起、随机测量误差、抽样误差、
2、系统误差:
就是一类恒定不变或遵循一定变化规律得误差,其产生原因往往就是可知得或可能掌握得、
3.非系统误差:
过失误差,可以避免或清除。
五、概率
就是用来描述事件发生可能性大小得一个量值,常用P表示、概率取值0~1。
统计上一般将P≤0、05或P≤0、01得事件称为小概率事件,表示其发生得概率很小,可以认为在一次抽样中不会发生。
第二节 统计资料得类型★
变量:
确定总体之后,研究者应对每个观察单位得某项特征进行观察或测量,这种特征能表现观察单位得变异性,称为变量、
一、数值变量资料
又称为计量资料、定量资料:
观测每个观察单位某项指标得大小而获得得资料。
表现为数值大小,带有度、量、衡单位、如身高(cm)、体重(kg)、血红蛋白(g)等。
二、无序分类变量资料
又称为定性资料或计数资料:
将观察对象按观察对象得某种类别或属性进行分组计数,分组汇总各组观察单位后得到得资料。
分类:
二分类:
+ —;有效,无效;多分类:
ABO血型系统
特点:
没有度量衡单位,多为间断性资料
【例题单选】某地A、B、O、AB血型人数分布得数据资料就是( )
A、定量资料B、计量资料
C。
计数资料D.等级资料
【答案】C
【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。
因为就是按照变量得血型分类,血型表现为互不相容得属性、所以本题选C。
【例题单选】测量正常人得脉搏数所得得变量就是()
A。
二分类变量 B.多分类变量 C。
定量变量 D。
定性变量
【答案】C
【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料、本题选C。
三、有序分类变量资料
半定量资料或等级资料:
将观察对象按观察对象得某种属性得不同程度分成等级后分组计数,分组汇总各组观察单位后得到得资料、
特点:
每一个观察单位没有确切值,各组之间有性质上得差别或程度上得不同
举例:
-+ +++++
第三节统计工作得基本步骤★
1。
统计设计
2、收集资料
3.整理资料
4.分析资料:
统计描述:
就是利用统计指标、统计表与统计图相结合来描述样本资料得数量特征及分布规律。
统计推断:
就是使用样本信息来推断总体特征、统计推断包括区间估计与假设检验。
第四节 统计表与统计图★
一、统计表
统计表得基本结构与要求
标题:
高度概括表得主要内容,时间、地点、研究内容,位于表得上方,居中摆放,左侧加表得序号。
标目:
横标目与纵标目。
线条:
通常采用三线表与四线表得形式。
没有竖线或斜线。
数字:
表内数字一律用阿拉伯数字、同一指标,小数位数应一致,位次对齐。
无数字用“—”表示。
暂缺用“…”表示。
“0”为确切值。
备注:
位于表得下面,通常就是对表内数字得注解与说明,必要时可以用“*"等标出。
一张统计表得备注不宜太多。
二、制表原则
重点突出,一个表一个中心内容
主谓分明,层次清楚
简单明了,一切文字数字线条尽量从简
【例题单选】统计表内不列得项就是( )(2010.7)
A。
标目 B。
线条 C。
数字 ﻩD.备注
【答案】D
【解析】统计表内备注位于表得下面,不列在统计表内,所以本题选择D。
三、统计图
1、
(1)标题
(2)标目(3)刻度(4)图例:
不同颜色或者不同线条表示,需要说明。
2。
常用统计图得适用条件与要求
(1)条图:
适用于比较、分析独立得或离散变量得多个组或多个类别得统计指标。
(2)圆图与百分比条图:
构成比得比较
(3)线图:
描述某统计量随另一连续性数值变量变化而变化得趋势。
(4)直方图:
数值变量得频数分布。
(5)散点图:
用点得密集程度与趋势描述2个变量间得数量关系
(6)箱式图:
多组数据分布得比较
(7)统计地图:
用不同得颜色与花纹表示统计量得在地理分布上得变化,适宜描述研究指标得地理分布。
【例题填空】描述某地十年间结核病死亡率得变化趋势宜绘制_________图、
【答案】线图
数值变量资料得统计分析
第一节 数值变量资料得统计描述
一、频数分布表★
1.编制步骤
(1)计算全距
(2)确定组距(3)划分组段(3)统计频数(4)确定频率与累计频率
2.频数分布表得主要用途:
(1)揭示资料得分布类型
(2)观察资料得集中趋势与离散趋势(3)便于发现某些特大或特小离群值 (4)便于进一步计算统计指标与作统计处理
二、集中趋势指标★
数值变量资料得集中趋势指标就是用平均数来描述得,代表一组同质变量值得平均水平。
常用得有算术均数、几何均数与中位数。
1.算数均数适用于对称分布(正态分布)或者近似对称分布得资料。
习惯上以μ表示总体均数,以表示样本均数。
2。
几何均数数值变量呈倍数关系或者呈对数正态分布,如抗体效价及抗体滴度,某些传染病得潜伏期、细菌计数等,宜用几何均数(G)、几何均数常用于等比资料或对数正态分布资料。
3.中位数就是指将一组变量值从小到大排列,位次居中得观察值就就是中位数。
适用条件:
变量值中出现个别特别大或特别小得数值 ;偏态分布资料;数值一端或两端无确定数值;资料类型不明。
4、百分位数 就是一种位置指标,以Px表示,把一组数据从小到大排列后,理论上有x%得变量比Px小,有(100—x)%得变量值比Px大。
【例题单选】描述正态分布资料集中趋势得指标就是( )
A、中位数ﻩB。
几何均数
C.算术平均数D。
标准差
【答案】C
【解析】算数均数适用于对称分布或者近似对称分布得资料、几何均数常用于等比资料或对数正态分布资料。
中位数适用条件:
变量值中出现个别特别大或特别小得数值;偏态分布资料;数值一端或两端无确定数值 ;资料类型不明、标准差描述数据得离散趋势指标。
所以本题选择C。
三、离散趋势指标★
1.极差与四分位数间距
极差:
简记为R,亦称全距,即一组变量值中最大值与最小值之差,反应变量值得离散范围、
四分位数间距Q:
一般与中位数一起描述偏态分布资料得分布离散趋势。
3.方差与标准差:
方差表示样本观察值得离均差平方与得均值。
表示一组数据得平均离散情况。
标准差就是方差得正平方根。
用途:
(1)用于表示正态或近似正态分布资料得离散度;
(2)反映均数得代表性
标准差越小,数据离散程度越小,均数得代表性越好。
(3)确定医学参考值范围
95%医学参考值范围
3、变异系数(CV)适用条件:
①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊
四、正态分布与参考值范围得制定★
(一)正态分布
1.概念:
也称高斯分布,就是医学与生物学最常见、最重要得一种连续性分布。
2。
特征:
(1)在直角坐标得横轴上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴左右完全对称
(2)在x=μ处,f(X)取最大值(3)正态分布有两个参数,即均数μ与标准差σ。
均数μ描述了正态分布得集中趋势位置,若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变,故μ称为位置参数。
标准差σ描述了正态分布得离散程度,若固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦、故σ称为形状参数或离散度参数。
(4)正态曲线下得面积分布有一定得规律。
4.正态曲线下面积得分布规律
(二)医学参考值范围得制定
医学参考值:
就是指绝大多数正常人得人体形态、功能与代谢产物等各种生理及生化指标常数,也称正常值、
第二节数值变量资料得统计推断★
一、均数得抽样误差与标准误
抽样误差:
由于个体变异与抽样造成得样本统计量与总体参数与样本统计量之间得差异、
均数得抽样误差:
由于抽样造成得样本均数与总体均数与样本均数间得差异、
标准误:
样本均数得标准差,用来表示。
(σ未知)
二、t分布
t分布曲线以0为中心,t分布为一簇单峰分布曲线,υ不同,曲线形状不同
t分布与υ有关,υ越小,t值越分散,t分布得峰部越低,而两侧尾部翘得越高
t界值表中一侧尾部面积称单侧概率(α)两侧尾部面积之与称双侧概率(α/2)
如:
t0、05/2,9=2。
262 , t0.05,9=1、833在相同自由度时,〡t〡值增大,α减小
在相同α时,单尾α对应得t值比双尾α 得小
三、总体均数得区间估计
统计描述
统计分析 参数估计--—用样本指标估计总体指标
统计推断
假设检验
总体均数置信区间(可信区间)得计算
区间估计:
就是按预先给定得概率(1-α)所确定得包含未知总体参数得一个范围。
(一)小样本或 σ 未知-—-—按 t 分布
(二)1。
已知σ --——-u分布ﻫ2、σ未知,但大样本(n>60 )--——按u 分布
四、假设检验得意义与基本步骤★
假设检验:
先对总体得参数或分布做出某种假设,再用适当得统计方法根据样本对总体提供得信息,推断此假设应当拒绝或不拒绝、
基本步骤:
1、建立检验假设,确定检验水准
(1)H0:
(无效假设) μ=µ0
(2)H1:
(备择假设)µ≠µ0 ,µ>µ0或µ〈µ0
(3)确定检验水准 α=0.05
2.选定检验方法,计算检验统计量
3、确定P值,作出推断结论
第三节均数得t检验与u检验★
t检验应用条件:
样本与总体/两样本均数得比较
①当n<60时,要求样本取自正态分布得总体,总体标准差未知;
②两小样本均数比较时,要求两样本总体方差相等( σ12=σ22)。
③n含量较大,u分布
一、单样本t检验
适用于样本均数代表得未知总体均数µ与已知总体均数µ0得比较。
ν=n-1
二、配对样本t检验
适用于配对设计得计量资料,常见得配对设计主要有以下情形:
①自身比较:
同一受试对象处理前后、②同一受试对象分别接受两种不同得处理。
③将条件近似得观察对象两两配成对子,对子中得两个个体分别给予不同得处理。
前提条件:
d变量服从正态分布
【例题单选】作配对样本t检验得前提条件就是( )
A。
两组数据独立ﻩB、两组数据不独立
C。
两组数据得差值服从正态分布D、两组数据得差值不服从正态分布
【答案】C
【解析】配对样本t检验样本可以就是自身配对,也可以异体配对,所以数据可以独立,也可以不独立。
它处理得就是两样本得差值,所以差值要服从正态分布才可以应用配对样本t检验,所以本题答案选C。
三、两样本t检验
适用条件:
完全随机设计得两样本均数得比较。
比较两样本所代表得总体均数μ1与μ2就是否相等。
完全随机设计就是将受试对象完全随机分配到两个不同处理组。
要求:
独立、正态、方差齐性
四、两样本u检验
完全随机设计得两样本均数得比较。
适用于样本量比较大得资料(n1>60且n2>60)
五、假设检验应注意得问题
1、假设检验应有严格得抽样设计-同质
2、要注意选用得假设检验方法得应用条件
3、正确区分差别有无统计意义与有无专业上得实际意义
4、结论不能绝对化
5、假设检验得单侧检验与双侧检验得选择
假设检验得两类错误
第Ⅰ类错误:
拒绝实际上成立得H0,犯第Ⅰ类错误得概率大小为α。
第Ⅱ类错误:
不拒绝实际上不成立得H0,犯第Ⅱ类错误得概率为β。
当样本含量n一定时,α越小,β越大;若想同时减少α与β,只有增大样本含量。
1—β称为假设检验得功效当所研究得总体与H0确有差别时,按检验水准α能够发现它(拒绝H0)得概率。
分类变量资料得统计分析
第一节分类变量资料得统计描述★
一、常用相对数
率:
说明某现象发生得频率或强度。
构成比:
说明某一事物内部各组成部分所占得比重或分布。
相对比:
说明一个指标就是另一个指标得几倍或百分之几、
【例题单选】某医院住院病人中有15%得胃癌患者,该15%就是( )
A、患病率ﻩB。
发病率
C、构成比ﻩD、相对比
【答案】C
【解析】15%得胃癌患者指得就是胃癌患者占住院病人得15%,所以就是构成比。
【例题填空】构成比就是说明________或分布指标。
率就是说明_________或强度得指标。
【答案】比重;频率
二、应用相对数时应注意得问题
(2011、7简答题)
1、计算相对数时,观察单位数应足够多
2。
分析时不能以构成比代替率
3.相对数得相互比较应注意可比性,不具有可比性应进行标准化
4、样本率或构成比得比较应做假设检验
第二节分类变量资料得统计推断★
一、率得抽样误差与标准误
二、总体率得区间估计
1、查表法:
当n较小,如n≤50,特别就是p接近与0或1时(小概率事件),按二项分布原则估计总体率得可信区间。
2。
区间估计 正态近似法:
当样本含量n足够大,样本率p或1—p均不太小时[如np与n(1-p)均大于5],样本率得分布近似正态分布,总体率可信区间在(1-a)可信度下,估计为:
P±uα/2Sp
例:
总体率95%得可信区间:
P±1、96Sp;总体率99%得可信区间:
P±2、58Sp
三、两总体率之差得区间估计
条件:
当样本含量n足够大,样本率p或1—p均不太小时,即np与n(1—p)均大于5,样本率得分布近似于正态分布([p1-p2]—uα/2Sp1-p2,([p1-p2]+uα/2Sp1-p2)
四、率得u检验
(一)样本率与总体率比较得u检验
(二)两样本率比较得u检验
第三节χ2检验★
一、四格表资料得χ2检验★
(一)四格表资料得χ2检验得基本思想
假设两组资料率得差异来自抽样误差,用χ2值反映实际频数与理论频数吻合得程度、在H0(π1=π2)成立得条件下,实际频数与理论频数相差不应该很大,若实际算出得χ2值较大,超过了设定得检验水准,则有理由怀疑H0得真实性,从而拒绝H0,接受H1(H1:
π1≠π2)
应用:
推断两个(或多个)总体率或构成比之间就是否有差别与多个样本率间得多重比较
一、四个表资料得卡方检验
四个表χ2检验基本公式:
四个表χ2检验专用公式:
适用条件:
两样本率比较时,总例数n≥40且所有格子T≥5
(二)四格表资料得χ2检验得校正公式★
或
1.当n≥40且所有得T≥5时,用χ2检验得基本公式或四格表资料χ2检验得专用公式;当P≈a时,改用四格表资料得Fisher确切概率法。
2、当n≥40但有1≤T〈5时,用四格表资料χ2检验得校正公式或改用四格表资料得Fisher确切概率法
3、当n<40,或T<l时,用四格表资料得Fisher确切概率法。
(三)四格表资料得确切概率法★
四格表资料得Fisher确切概率法就是一种直接计算概率得方法,理论依据就是超几何分布,四格表资料得确切概率法不属于χ2检验得范畴,常作为四格表资料假设检验得补充、
二、配对四格表资料得χ2检验
配对设计四个表卡方检验公式:
若b+c≥40
ν=1
若b+c<40
ν=1
三、行×列表资料得χ2检验ﻩﻩ
用于多个样本率得比较,两个或多个构成比得比较
理论频数不应小于1,1≤T〈5得格子数不应超过总格子数1/5
多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总得来说有差别,但不能说明任两个总体率之间均有差别。
一般得χ2检验不适用于有序分类资料(等级资料)-—“等级"、“程度”、“优劣"得比较分析。
因为检验只利用了两组构成比提供得信息,损失了有序指标包含得“等级"信息。
第四节 秩与检验★
秩与检验就是将定量数据从小到大、等级从弱到强或从强到弱转换成秩后,求秩与,计算检验统计量-—秩统计量,做出统计推断。
应用:
Ø不满足t检验条件得数值变量资料
Ø有序分类变量资料(等级资料)
Ø分布类型不明
Ø一端或二端无确定数值
Ø任何分布类型得资料
秩与检验应用中得注意事项
(1)秩与检验一方面由于其方法得稳健性而具备不受总体分布限制,适用范围广得优点,但另一方面,在秩转换得过程中损失了原数据得部分信息、如果已知计量资料满足(或近似满足)t检验应用条件,这时若选秩与检验,由于没有充分利用资料提供得信息,会降低检验效能、即当Ho不真时,秩与检验将不如t检验能较灵敏得拒绝Ho,犯第2类错误得概率要比t检验大。
(2)对于计量资料,若满足正态与方差齐性条件,应选t检验对总体均数作假设检验;当资料偏离假定条件时,选用秩与检验才就是可靠得。
(3)对于大样本资料,通过把原变量值或等级转换成秩后,可采用t检验方法对平均秩次进行检验。
【例题填空】等级资料得比较宜选用______检验。
【答案】秩与
【例题简答】秩与检验得优点
【答案】秩与检验适合任何分布得资料;具有较好得稳健性。
第十八章直线回归与直线相关
第一节直线回归
用于分析两变量间依存变化得数量关系
一、直线回归方程
式中得X为自变量;式中得Ŷ就是由自变量X推算应变量Y得估计值。
a就是回归直线在Y轴上得截距,即X=0时得Y值;
b为样本得回归系数,即回归直线得斜率,表示当X变动一个单位时,Y平均变动b个单位。
a 与 b得估计常用最小二乘法原则
所有得点离回归线得纵向距离最近;回归线必然通过
求回归方程得得步骤:
①在普通坐标系中作散点图,瞧就是否有直线趋势。
②求X、Y得离均差乘积与lxy及X、Y得离均差平方与lxx、lyy
③求a与b
④列出回归方程:
Ŷ=a+bX
【例题填空】直线回归就是分析_________间数量关系得统计方法、(2011、4)
【答案】两个变量
二、总体回归系数得假设检验
t检验法判断b就是否来自回归系数为0(β=0)得总体。
三、直线回归方程得应用
1。
描述变量间数量关系
2。
统计预测
3。
统计控制
第二节 直线相关
用于描述两变量间线性关联程度与相关方向,适用于双变量正态分布
一、相关系数★
它反映具有直线关系得两个变量之间,相关密切程度与相关方向得指标、样本相关系数用r来表示,总体相关系用ρ来表示.其取值范围就是-1≤r≤1、
r为正表示正相关关系,x与y同向变化;r为负表示负相关关系,x与y反向变化、
r得绝对值越接近1,线性关系越密切;r得绝对值越接近0,线性关系越不密切;r绝对值=1,为完全相关;r=0,为零相关。
二、相关系数得计算
三、相关系数得假设检验(总体相关系数为ρ)
ν=n—2
五、直线回归与相关应用得注意事项★
(1)注意事项:
①根据分析目得选择变量及统计方法:
直线相关:
两变量之间直线关系得方向与密切程度,XY无主次之分;直线回归:
应变量对自变量在数值上得依存关系,一般把易于测量得作为自变量,另外根据专业知识确定、进行相关回归分析要有实际意义,不可把毫无关系得两个事物或现象用来作相关回归分析。
②进行相关、回归分析前应绘制散点图
③相关与回归得应用条件:
直线相关分析一般要求X、Y服从二元正态分布,又称为双变量正态分布、
④结果得解释及正确应用 线性关系存在不能直接解释为因果关系;直线回归用于预测时,自变量范围尽量不要外延。
(2)关系:
直线相关与回归既有区别又有联系。
区别主要体现在:
①反映两个变量间数量关系得目得不同。
②对变量得分布要求不同。
联系主要体现在:
①同一资料同时作相关与回归分析时,其相关系数r与回归系数b得符号相同、②同一资料r与b得假设检验等价。
③相关与回归可以相互解释。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计 知识点 整理