常用医学统计方法.docx
- 文档编号:29012971
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:31
- 大小:100.09KB
常用医学统计方法.docx
《常用医学统计方法.docx》由会员分享,可在线阅读,更多相关《常用医学统计方法.docx(31页珍藏版)》请在冰豆网上搜索。
常用医学统计方法
常用医学统计方法
统计学是以数学方法观察和比较事物的一门学科。
一、研究对象:
存在变异的事物或现象
变异:
同质(性质相同)对象之间存在的差异。
●变异导致的现象有,个体≠个体;个体≠部分;部分≠部分;部分≠全部
上述四种不同如果是变异所致,则不同是表像,相同才是本质。
●鉴于“变异”的存在,当欲判断事物与事物有无不同时,必需考虑排除因变异
导致的“假性”不同。
二、基本概念:
1、总体:
由研究目的确定的同质研究对象全体
2、样本:
来源于总体,对总体有代表性的一部分
样本具备‘代表性’的条件:
A、遵循随机抽样(化)原则:
总体中每一个体被抽取的机会均等
B、样本含量(观察对象数量)适宜
3、抽样误差:
(1)样本指标(均来源于同一总体)之间的差别
(2)样本指标与总体指标(样本来源于该总体)之差
●应用意义:
抽样误差存在的原因是变异。
样本与样本之间存在的抽样误差,并非真正不同,而是“同质”。
4、概率:
指事件发生的可能性,用符号“P”表示
小概率事件:
指P≤0.05(5%)的事件。
小概率事件原理:
在一次观察中小概率事件可以认为不会发生
讨论
1、某病房将同类患者按入院次序编号,偶数组给予传统护理方法,奇数组给予新护理方法,每组30人。
以期观察和比较两种护理法的效果。
疗效评价用平均数表示则:
(1)上述研究的“真正”对象,是若干还是全体糖尿病患者?
(2)研究开始之前,两组对象同质吗?
平均数必须相等吗?
(3)在研究进行之中,两组对象同质吗?
(4)上述“同质”的观察角度分别是:
同类病人;同类护理方法;同类效果
2、
(1)指出下列可能由变异导致的现象:
(2)指出下列可能由抽样误差导致的现象:
X:
个体观察值,X:
样本平均数,μ:
总体平均数
A、X1≠X2B、X1≠X2C、X≠XD、X≠μE、μ1≠μ2
三、统计资料种类:
资料不同,统计分析方法亦不同。
1、计量资料:
由定量数据组成,可以计算平均数
2、计数资料:
由定性数据组成,可以计算比、率
3、等级资料:
既有计量又有计数性质(了解)
四、统计工作的基本步骤:
1.统计设计:
确定研究对象、内容;控制误差
⑴随机:
使样本对总体有代表性
⑵对照:
平行对照(观察组、对照组);自身对照
⑶双盲:
调查者不知被调查者属于何组,避免诱导误差
被调查者不知自己属于何组,避免依从性误差
⑷齐同:
观察组与对照组的对象,除了被观察因素不同,其他所有条件均应相同。
2、资料收集:
3、资料整理:
4、资料分析:
⑴以统计指标描述样本资料(频数分析:
均数、率等)
⑵以大样本代表总体,评判个体归属(医学正常值范围)——(应用在个体水平)
⑶以样本指标估计总体情况(总体指标可信限)——(应用在总体水平)
⑷判断样本与样本、样本与总体是否同质(假设检验)——(应用在样本水平)
⑸判断不同质的事物之间是否有关系(相关与回归分析)
平均数与标准差
平均数
1、表示计量资料集中趋势的统计指标,是资料数值“大小”的代表,即平均水平。
2、常用平均数有三种:
不同分布的资料选用不同的平均数。
一、算术平均数:
总体均数用μ表示;样本均数用x表示
1、应用条件:
数据呈正态或近似正态分布的计量资料
2、计算方法:
掌握计算器运算方法
⑴直接法:
略。
⑵加权法:
原理(与直接法相比较)
●以组中值代替原始数据。
讨论
●大样本资料可以用直接法计算均数吗?
●直接法和加权法计算公式中,“X”的含义有何区别?
●直接法与加权法计算均数,那一种结果更精确?
二、几何均数(G)
1、应用条件:
呈对数正态分布的计量资料,如血清抗体滴度资料
2、计算方法:
将所有数据(X)取对数(lgX)→求“算术均数”→取反对数
三、中位数(M)
1、概念:
将一组数据按大小顺序排列,居中数据之数值,即为中位数。
2、应用条件:
呈任何分布的计量资料
3、计算方法:
(1)直接法:
排序及目测位居中间的数据之值
(2)频数表法:
计算关键——以n/2,找出中位数所在组段。
式中:
L=中位数所在组段的下限
i=中位数所在组段的组距
fm=中位数所在组段的频数
ΣfL=中位数所在组段之前的累计频数
标准差
1、是表示正态分布计量资料离散程度的统计指标。
2、总体标准差以δ表示,样本标准差以S表示。
3、意义:
反映观察值之间的变异程度,δ大表示数据分散,δ小表示数据集中。
4、计算:
重点掌握“应用公式”和计算器运算:
(1)直接法:
(2)加权法:
5、应用:
(1)标准差反映了一个资料(内部)的变异程度。
(2)在X±1.96S的范围内包含了95%的观察值,故常用X±1.96S计算医学正常值。
讨论
1、标准差是表示正态分布计量资料的统计指标
A、集中趋势B、离散程度
C、频数分布D、数据最大值与最小值之差
3、偏态分布计量资料常用表示集中趋势
A、MB、GC、XD、S
4、调查100名女大学生血清总蛋白含量(g/L),得:
X=73.82(g/L),S=3.91(g/L)
⑴用公式X±1.96S计算,理论上女大学生血清总蛋白95%正常值范围为多少?
⑵所计算的正常值范围仅适用于100名女大学生吗?
⑶如要适用于全体女大学生,研究样本必须符合什么条件?
⑷要知道人类血清总蛋白含量的情况,假如不存在变异,研究的对象需要多少名?
⑸对频数表用计算器计算X和S时,掌握正确输入方法。
正态分布与标准正态分布
1、每一个正态分布均能转换为标准正态分布(亦称U分布)
X=μ+Uδ
X1μX2U10U2
●由于对于具体资料,μ与δ是常数。
故每个X可得到一个U值,形成U分布。
如:
X=μ时,U=0;X1与X2之间包含的面积(数据),与U1到U2之间的面积相同;
如果某X值位于X1与X2之间,则对应的U值必然位于U1到U2之间;
如果某X值大于X2(或小于X1),则对应的U值必然大于U2(或小于U1)。
2、标准正态分布下的面积常数:
可查表,用于计算医学正常值范围。
●如:
±1.64——90%的面积,±1.96——95%的面积,±2.58——99%的面积
将面积常数代入公式X=μ+Uδ,即可换算出相同比例的正态分布之面积。
●即U=±1.96之间包含着95%的U,故μ±1.96δ之间也包含95%的数据(X)。
抽样误差和标准误
●抽样误差的概念?
产生的原因?
可以避免吗?
怎样缩小抽样误差?
1、原理:
(1)X分布与标准误
●许多X可形成一个X分布,来源与同一总体的许多X(n相同)也可形成X分布。
n不同时,X分布也不同。
●与X分布相比,X分布的集中趋势X=μ,离散趋势用(δX)标准误表示。
●
标准误“理论公式”为:
δX=δ/n“应用公式”为:
SX=S/n
●SX是δX的估计值,计算SX仅用某个样本数据即可,但其含义已超出了该样本。
●标准误的意义:
(掌握)
标准误是样本均数的标准差;是表示抽样误差大小的统计指标;SX越小,表示
样本均数X对μ的代表性越好、越可靠。
●同样95%的X分布在μ±1.96δX区间内(与95%观察值范围计算相类似)
(2)t分布
●由于实际上不能获得δ,故以S替代,计算出SX代替δX。
可获得t值。
●t分布与U分布一样也是标准分布,但n不同t分布不同。
●与U值一样,t值也可由查表而得。
通常只需查t0.05值。
X=μ±1.96δXX=μ±t0.05SX(95%的X分布范围)
X1μX2t10t2
即当图中t1与t2分别取值为±t0.05时,则μ±t0.05SX之间包含了95%的样本均数(X)。
●当n≥100时,t分布已接近U分布,为了少查表,上式可改为X=μ±1.96SX
总体均数可信区间
1、95%总体均数可信区间是以X为中心,两侧均延伸“t0.05SX”长度形成的一个区间。
X±t0.05SX(n<100时)
X±1.96SX(n≥100时)
μ-t0.05SXμμ+t0.05SX
X-t0.05SXXX+t0.05SX
2、总体均数可信区间的应用意义:
调查在样本水平,应用在总体水平,如保险费的估计。
抽样误差和比较
以统计指标进行事物与事物的比较,称为“统计检验”或“假设检验”
一、计量资料的假设检验
1、统计检验(假设检验)的前提:
所比较的两个X(或X与μ)能假设来源于同一总体,即X1≠X2属于抽样误差。
●经计算t值,进行两个均数的比较,称为t检验。
●当样本含量n≥100时,t值已接近U值。
此时可用U0.05(1.96)代替t0.05进行判断。
所进行的均数的比较,称“U检验”。
2、统计检验(假设检验)步骤----四步
(1)假设、确定检验水平
H0:
(无效假设)即假设两个X所属总体相同,差别为抽样误差。
表达为μ1=μ2
H1:
(备择假设)即假设两个X所属总体不同,差别为本质差别。
表达为μ1≠μ2
α:
(检验水平)通常取5%,表达为α=0.05
(2)计算统计量
t=?
(当样本含量n<100时)或U=?
(当样本含量n≥100时)
(3)确定概率值(P值)
通过t与t0.05(查表可得)比较,或U与1.96(U0.05)比较
(4)用文字表达统计结果:
?
3、均数抽样误差的判断
X转换所得U
表示X位于
统计学意义
<1.96(如X1)
95%范围内
差别为抽样误差
=0(如X2)
=μ
不存在抽样误差
>1.96(如X3)
95%范围外
差别为本质差别
X转换所得t
表示X位于
统计学意义
<t0.05
95%范围内
差别为抽样误差
=0
=μ
不存在抽样误差
>t0.05
95%范围外
差别为本质差别
4、t检验注意事项:
⑴资料应具备可比性
⑵均数差别应有实际意义
⑶选择适宜的统计方法
⑷结论判断不能绝对化(Maybe)
二、样本均数与总体均数比较(X与μ比较)
例:
正常人血清无机磷总体均数为4mg/dl,某地随机抽取16个成人慢性肾炎患者,检查得血清无机磷均数为5mg/dl,标准差为1.6mg/dl。
问该地成人慢性肾炎患者的血清无机磷是否与正常人有区别?
(即已知:
μ=4X=5S=1.6n=16)
●临床意义:
证实慢性肾炎是否会导致血清无机磷含量的改变,即血清无机磷是否可以作为慢性肾炎的诊断指标或疗效观察指标。
1)H0:
μ=μ0(慢性肾炎患者血清无机磷与正常人相同)
H1:
μ≠μ0(慢性肾炎患者血清无机磷与正常人不同)
α=0.05
2)t=X–μ=5-4=2.5
SX1.616
3)ν=n-1=16-1=15
查t值表,得t0.05(15)=2.131
∴t>t0.05(15)∵P<0.05
4)可以认为慢性肾炎患者血清无机磷与正常人不同任
慢性肾炎患者与正常人血清无机磷的差别有显著性选
可以认为慢性肾炎对成年人血清无机磷有影响一
可以认为慢性肾炎会导致成年人血清无机磷上升种
三、配对资料的t检验
●配对资料:
资料由成对数据所组成。
●每对数据形成一个差数(d),即配对资料由一组“差数”组成。
●统计分析出发点:
当μd=0的时候,可以因“变异”出现d≠0和因“抽样误差”
出现d≠0的现象。
例一:
应用克矽平治疗10名矽肺患者,根据下表资料,评价该药能否引起血红蛋白变化?
克矽平治疗前后血红蛋白含量
患者编号
血红蛋白(克/升)
治疗前治疗后
差数
(d)
1
2
3
4
5
6
7
8
9
10
113
150
150
135
128
100
110
120
130
123
140
138
140
130
135
120
147
114
138
120
-27
12
10
5
-7
-20
-37
6
-8
3
合计
-63
●差数(d)=治疗前测定值-治疗后测定值
就个体而言,d为负数的临床意义?
d为正数说明?
就样本而言,d为负数的临床意义?
d为正数说明?
就总体而言,μd为负数的临床意义?
μd为正数说明?
已知:
d=-6.3Sd=16.76Sd=16.7610=5.3
1)H0:
μd=0(治疗前后的Hb相同,即d≠0是抽样误差)
H1:
μd≠0(治疗前后的Hb不同)
α=0.05
2)t=d–μd=(-6.3)-0=-1.89
Sd5.3
3)ν=n-1=10-1=9
查t值表,得t0.05(9)=2.262
任
选
一
种
∴t<2.262∵P>0.05
4)还不能认为克矽平治疗前后血红蛋白含量不同
克矽平治疗前后血红蛋白含量的差别无显著性
可以认为克矽平治疗对血红蛋白含量无影响
四、两样本均数比较(X与X)
⑴大样本(两个样本含量均大于100)——U检验
某医院研究劳动类型与血清胆固醇的关系,调查结果为脑力劳动组537人,平均胆固醇水平为4.8mmol/L,标准差为0.72mmol/L;体力劳动组643人,平均数为4.6mmol/L,标准差为0.81mmol/L。
问两种劳动者的血清胆固醇水平是否有差别?
1)H0:
μ1=μ2H1:
μ1≠μ2(文字表达?
)α=0.05
2)U=X1–X2=4.8-4.6=4.4882
S12S220.7220.81
n1n2537643
3)∴U>1.96∵P<0.05
4)可以认为两种劳动者血清胆固醇水平不同任
两种劳动者血清胆固醇水平的差别有显著性选
可以认为劳动类型对血清胆固醇水平有影响一
可以认为脑力劳动者血清胆固醇高于体力劳动者种
⑵小样本:
小样本作假设检验时,视n1≠n2、或n1=n2,公式不同。
讨论甲、乙两方法护理前后的患者血沉(mm/h)
病人编号
135791113151719
d甲
甲
法
护理前
护理后
10136111078859X1
693101042533X2
病人编号
2468101214161820
d乙
乙
法
护理前
护理后
9109138610111010X3
6353358274X4
1.上表资料是某医院将同类患者按入院先后次序编号,然后随机确定单号组给予甲护理
方法,双号组给予乙护理方法,这种分组法属于方法
A.简单随机抽样B.系统抽样C.分层抽样D.整群抽样
2.上述研究属于。
A.病例回顾调查B.现况调查C.前瞻性调查D.实验观察调查
3.上述研究开始时的两组对象。
A.必须来源于同一总体B.必须来源于不同总体
C.可以来源于相同的总体D.可以来源于不同总体
4.在研究过程中,两组对象应该是。
A.属于同一总体B.属于不同总体
C.A和B都有可能D.A和B都不可能
5.根据上述资料,判断甲护理法是否有效,下列说法是错误的
A.可用配对t检验B.可用两样本均数t检验
C.成对t检验P≤0.05时,成组t检验一定是P≤0.05
D.成组t检验P≤0.05时,配对t检验一定也是P≤0.05
6.要判断甲法是否有效,(d为护理前血沉值减护理后血沉值,下降表示有效),能否作
配对t检验的前提是
A.d甲>0B.d甲<0C.d甲=0D.d甲<d乙
7.对甲法组作配对t检验,下列H0含义,错误的是。
A.10名予甲法的患者护理前后血沉值相同
B.予甲法的患者护理前后血沉值相同
C.甲护理法对血沉无影响D.甲法护理无效
8.对甲法组作配对t检验,P<0.05时,下列表达是错误的
A.甲法护理前后患者的血沉水平不同
B.可以认为甲护理法有效
C.可以认为甲护理法对血沉有影响
D.可以认为甲护理法会降低血沉
9.对甲法组作配对t检验时,自由度为。
A.9B.10C.18D.20
10.作d甲和d乙比较的t检验,判断甲、乙两法对血沉影响力的区别,其前提是.
A.甲法可降低血沉,乙法无效(即前者配对t检验P≤0.05,后者P>0.05)
B.乙法可降低血沉,甲法无效
C.甲、乙两法均无效
D.甲、乙两法均可降低血沉
11.你对3.5.6.8.10题作出判断是基于下列t检验注意事项,选择于本题下面。
A.资料应具备可比性B.均数差别应有实际意义
C.选择适宜的统计方法D.判断结论不能绝对化
3.5.6.8.10..
直线相关与回归分析
一、相关和回归分析的区别与联系
1、区别:
(1)相关分析:
判断事物有无关系及密切程度
(2)回归分析:
用数学方程表示关系,目的是从X推测Y。
2、联系:
先确立相关关系,后建立回归方程。
二、分析前提:
1、相关分析:
所分析的事物不同质(属于不同的总体)
2、回归分析:
(1)相关关系成立
(2)正确选定自变量(X)与应变量(Y)
三、相关分析:
掌握计算器计算。
1、r的意义:
1)r数值上介于–1到+1之间;r<0,表示直线负相关;r>0,表示直线正相关
2)r越接近0,相关越不密切;r接近1,相关密切;r=1时,呈完全直线相关
2、相关系数r的计算与显著性检验(四步)
1)假设:
H0:
ρ=0H1:
ρ≠0α=0.05
2)计算r:
用计算器。
3)确定P值:
ν=n–2,查表。
当r>r0.05时,P<0.05;当r<r0.05时,P>0.05
4)文字表达结果:
P<0.05时,可认为有直线相关关系
P>0.05时,可认为直线相关关系不成立
六、回归分析:
建立回归方程Y=a+bX,b为斜率,又称为样本回归系数。
1、b的意义:
表示X对Y的影响力。
b为负数,负相关;b为正数,正相关。
2、回归方程的应用:
由X值,推断相应的Y值。
(三)相关回归分析的注意事项
1、作相关与回归分析要有实际意义,且变量X与Y均呈正态分布。
2、相关与回归的应用,仅限于原实测数据范围内,不得任意外延。
3、由X推断Y和由Y推断X的回归系数及回归方程是不同的,切勿混淆。
4、事物的关系有:
因果关系、间接关系、虚假关系,相关回归分析无法区分
相对数
一、相对数概念:
计数资料的统计指标。
二、常用的相对数种类:
率、构成比、(相对比---了解)
1、率:
说明现象或事件发生的强度指标
2、构成比:
说明事物内部各部分所占的比重指标
三、相对数应用注意事项
1、样本含量不宜过小
2、不要把“构成比”错当成“率”使用
3、正确计算总率(合计率、平均率)
计算练习某地居民年龄别肿瘤死亡情况
年龄组
(岁)
人口数
死亡数
构成比
(%)
死亡率
(1/十万)
0-
20-
40-
≥60
82920
46638
28161
()
()
12
()
32
()
()
46.7
35.6
4.82
()
()
341.48
合计
()
90
()
()
4、统计指标相互比较时,应具“可比性”
⑴怎样选择对照组,才能保证观察结果比较具有“可比性”?
⑵调查儿童寄生虫感染率,下列那些相比有可比性?
(a)男童蛔虫感染率(b)女童蛔虫感染率(c)男童钩虫感染率(d)女童钩虫感染率
⑶率的标准化
目的:
合计率作相互比较时,由于内部构成不同导致不可比性。
率的标准化,使资料具备可比性,方能进行统计分析。
注意:
“标化率”是虚拟的(不是实际情况),只有作“比较”时才有意义。
举例:
某年甲乙两厂石棉工人的石棉肺患病比较
年龄组
(岁)
甲厂
接触患病患病率
人数人数(‰)
乙厂
接触患病患病率
人数人数(‰)
<45
≥45
400410.0
6001830.0
8001012.5
2001050.0
合计
10002222.0
10002020.0
●什么是内部构成不同?
●两厂“合计患病率”、“年龄组患病率”均具有可比性吗?
某年甲乙两厂石棉工人的石棉肺患病比较(经标化)
年龄组
(岁)
标准
人数
甲厂
预期患病患病率
人数(‰)
乙厂
预期患病患病率
人数(‰)
<45
≥45
1200
800
1210.0
2430.0
1512.5
4050.0
合计
2000
3618.0
5527.5
●标准人数是怎样组成的?
体会两厂标准人数相同时,消除了内部构成不同。
●表中那些数据是“真实”的?
找出表中的“标化率”?
●为什么甲厂的“合计率”经“标化”后下降了?
●甲厂实际的石棉肺患病率究竟是22.0‰还是18.0‰?
●根据“标化率”能说患病情况乙厂较甲厂严重吗?
5、计算相对数时,应合理选择分子与分母
卡方检验适用于因变量和自变量都是分类数据,
单因素方差分析适用于,自变量是分类变量,因变量是连续数据。
线性相关性检验Linear-by-LinearAssociation:
仅用于当两变量均为等级变量的资料。
双向无序分类资料为两个或多个样本,做差别检验(例7-7);若为单样本,做关联性检验(例7-8)。
四、临床常用的相对数指标
1、疾病统计指标:
(1)发病率:
常用“年发病率”
总发病率(传染病、院内感染等)和某病发病率
年发病率=年内新发病例数×1000‰
年均人口数
(2)患病率:
时点患病率与年患病率,常用于慢性病。
患病率=年(时点)内患病人数×K
同期调查人口数
2、死亡统计指标:
(1)总死亡率:
也称“粗死亡率”
年死亡率=年内死亡总人数×K
年均人口数
(2)疾病别死亡率:
也称“某(类)病死亡率”
某病死亡率=年内因某病死亡数×K
年均人口数
(3)年龄别死亡率:
即某年龄组死亡率
年龄别死亡率=某年龄组死亡数×K
同年龄组年均人口数
(4)某(类)病病死率:
某病病死率=因某病死亡数×K
同期该病患者数
(5)死因构成比:
某病
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常用 医学 统计 方法