颜虹的医学统计学案例选docWord格式.docx
- 文档编号:16797913
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:48
- 大小:121.77KB
颜虹的医学统计学案例选docWord格式.docx
《颜虹的医学统计学案例选docWord格式.docx》由会员分享,可在线阅读,更多相关《颜虹的医学统计学案例选docWord格式.docx(48页珍藏版)》请在冰豆网上搜索。
4、实验设计为什么要设立对照?
设立对照要注意些什么?
5、随机化的含义是什么?
目的是什么?
6、区组化的目的是什么?
第三章观察性研究设计概述
案例3-1某地(100万人口)拟开展当地中老年人非胰岛素依赖型糖尿病的现况调查,目的是了解当地糖尿病的流行状况,以及与糖尿病患病相关的危险因素。
调查对象是当地居住超过5年、40岁以上的常住居民。
该研究采取分层、整群随机的抽样方法,将该地区15个镇按城镇或乡村,经济发展水平分成3个层,每层随机抽取2个镇或街道,再从被抽中的镇或街道中随机抽取两个村或居委。
被抽中村或居委的全部40岁以上居民包括原糖尿病患者均参加调查。
调查结果男女两性比例为0.94:
1,并划分为5个年龄组,性别和各年龄组构成比与当地人口性别和年龄的分布情况相符。
调查内容包括:
①问卷调查:
被调查者的一般情况、糖尿病及其他病史、家族史、糖尿病临床表现、饮食调查、吸烟、饮酒情况及体力活动等;
②体格检查:
包括身高、体重、腰围、臀围及血压等;
③血糖测定。
⑴该研究采用的是全面调查还是抽样调查?
各有何优缺点?
⑵该研究采用的抽样方法有何优点?
是否有更好的抽样方法?
⑶该研究的设计方案是否合理?
请你设计一个研究的方案。
⑷该研究采用的调查表应该包括哪些项目?
请你设计该调查表。
1、观察性研究是有目的地观察或测量自然接触不同因素人群的结果事件发生状况,通过对比分析发现事件的分布特点与差异,从而获得有关因果假设的启示,为进一步研究提供线索。
2、观察性研究包括描述性研究和分析性研究两大类。
3、横断面研究是按照事先制定的计划,调查特定人群特定时点某种疾病的患病情况,以及与患病有关的因素。
横断面研究的设计要考虑研究目的、对象、调查方法、调查表设计、样本量、组织计划、质量控制和分析计划等。
4、问卷是调查研究中用来收集资料的一种工具,它的形式是一份精心设计好的问题表格,它的用途在于测量人们的行为、态度和特征。
问卷设计的好坏是保证调查质量的关键,本章介绍问卷设计的基本原则和步骤。
5、随机抽样是抽样调查中样本具有代表性和能进行总体参数估计的保证,常用的抽样方法有单纯随机抽样、系统抽样、分层抽样和整群抽样。
1、观察性研究与实验性研究有何异同?
二者能否同时使用或结合使用?
2、观察性研究主要有哪些方法?
3、为什么大多数的观察性研究是抽样调查研究?
4、根据对全国出生缺陷监测资料的统计分析,发现神经管缺陷的发生具有明显的季节性,表现为1~3月份出生的孩子的发生率比较高。
今欲调查其原因,应采取什么调查方法?
请做出完整的调查设计并制定出调查表。
5、欲了解某市乙型病毒性肝炎患病情况及其影响因素,请做一个调查设计。
6、现拟在大学生中进行一项吸烟习惯调查,请你考虑调查问卷应包括哪些项目,并设计出调查问卷。
第四章统计描述
案例4-1表4-24是某研究者在一项回顾性调查中收集的部分资料,其目的是研究抗生素的使用效果。
表4-24某医院内、外科25例住院病人使用抗生素的情况
病人编号
性别
年龄(岁)
入院体温(℃)
入院时白细胞计数(×
103)
抗生素使用
细菌培养
所在科室
住院时间
1
2
30
37.2
8
5
73
36.7
10
3
40
12
6
4
47
36.8
11
25
36.9
82
36.0
14
7
60
37.5
56
37.0
9
43
17
50
59
36.4
36.6
13
22
33
15
20
16
32
36
37.3
18
69
19
36.1
21
23
67
24
41
注:
性别:
1=男,2=女;
抗生素使用:
1=是,2=否;
细菌培养:
所在科室:
1=内科,2=外科。
试分析:
⑴构造性别的频数分布表,并绘制性别的频数分布条图;
⑵以20岁为组距,构造年龄的频数分布表,并绘制年龄的频数分布直方图;
⑶以5天为组距,构造住院时间的频数分布表,并绘制住院时间的频数分布直方图,观察其分布特征;
⑷计算住院时间的算术均数、几何均数、中位数;
⑸计算住院时间的最大值、最小值、四分位数与四分位数间距;
⑹计算住院时间的全距、方差、标准差和变异系数;
⑺构造内、外科使用抗生素情况的统计表、条图和圆图;
⑻构造内、外科采用细菌培养情况的统计表、条图和圆图;
⑼构造内、外科使用抗生素和采用细菌培养情况的统计表、条图和圆图;
⑽绘制箱图,比较用与不用抗生素的住院患者住院天数的差异;
⑾以住院天数为纵坐标,以年龄为横坐标,绘制散点图;
1、计量资料的统计描述,主要了解数据的分布范围、集中位置以及分布形态等特征。
大样本数据,需要编制频数分布表,通过频数分布表观察数据的分布特征。
2、频数分布表的主要作用是揭示资料的分布特征;
描述其集中趋势和离散趋势,有助于发现数据中远离数据群体的离群值。
3、数据的分布形状分为对称分布与偏态分布。
偏态又分为右偏态和左偏态。
4、描述计量资料集中趋势的平均指标有:
算术均数、几何均数、中位数等。
算术均数适合于对称分布资料,几何均数、中位数等。
算术均数适合于对称分布资料,几何均数适用于2右偏态和呈现比例递增的资料,中位数适合于任意分布的资料。
5、描述计量资料离散趋势的变异指标有:
全距、方差、标准差和变异系数、四分位数间距等。
其中标准差是最常用的变异指标,适合于对称资料特别是正态分布资料;
四分位数间距适合任意分布资料,尤其适合于大样本偏态分布资料。
变异系数主要用于比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间离散程度的差异。
6、描述计数资料基本特征的指标有:
比、比例和率。
比可以是任意两个数值之比,包括比和比率。
当分子是分母的一部分时,称为比例;
当比例与观察时限有关时,称为率。
比例又分为构成比和频率。
而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。
流行病学研究中常用的两个比是相对危险度和优势比(比数比)。
7、内部构成不同的两个率比较时,应计算标准化率。
8、动态数列用来描述一组按照时间顺序排列起来的统计指标,如绝对数、相对数、平均数等,在时间的变化和发展趋势。
9、医学常用统计指标有:
人口统计指标、出生与死亡统计指标、生育统计指标、疾病统计指标、期望寿命等。
10、表达统计结果的数表称为统计表。
统计表由标题、标目、线条、数字4部分组成,必要时增加注释。
11、常用统计图有:
条图、百分条图、园图、线图、半对数线图、箱图、散点图等,这些统计图所适用的数据类型,绘图目的和有关说明列在表4-25中。
第五章概率分布
案例5-1一般人群先天性心脏病的发病率为8‰,某研究者为探讨母亲吸烟是否会增大其子女的先天性心脏病发病的危险,对一群20~35岁有吸烟嗜好的孕妇进行了生育考察,在他们生育的320名子女中,经筛查有4人患先天性心脏病。
试讨论:
⑴若以X表示观察中患先天性心脏病的小孩数,X的分布是什么分布?
⑵若按人群先天性心脏病的发病率为8‰,计算320名子女中,至少有4名小孩患先天性心脏病的概率。
⑶这一研究过程是否有可改进的地方?
案例5-2根据对青少年生长发育大样本的调查资料,计算得7岁男童的身高均数
=119.95cm,标准差=4.72,按身高范围统计结果见表5-4.
表5-4青少年生长发育调查资料统计结果
身高范围(cm)实际人数百分比
115.32~124.568167.5
111.47~130.1411394.17
106.49~133.8711898.33
(1)试计算所给身高范围的理论人数和百分比。
(2)实际人数和理论人数(百分数)有何不同与联系。
1、随机事件、概率与随机变量是研究随机现象的基本概念。
通过随机变量可用数学手段对随机现象进行更深入的研究,随机变量分为两类,一类是连续型随机变量,另一类是离散型随机变量。
2、二项分布和Poisson分布是离散型随机变量最为常见的分布类型。
在医疗卫生领域,若研究结果只可能是两个对立结果中的一个,例如阳性、阴性,这样的观察独立、重复n次出现阳性的次数X服从二项分布。
X取值为0,1,2,…,n,X=k的概率按下式计算:
其中π为每次试验出现阳性的概率,且
。
Poisson分布主要用于描述在单位时间、面积、空间上某事件的发生数。
医学和卫生领域中有些指标例如:
单位时间接收到放射性物质的放射线数、某单位容积中的细菌数、野外单位空间的某种昆虫数等。
服从Poisson分布随机变量X取值为非负整数0,1,…,其相应概率为
当n大,π小时,二项分布近似Poisson分布。
此时计算而项分布概率的工作量很大,可用Poisson分布公式作近似计算。
3、正态分布是连续随机变量最重要的而基本的分布。
其重要性体现在:
(1)正态分布具有优良的性质和规律。
(2)在解决实际问题时,许多研究指标服从(或近似服从)正态分布。
(3)理论上,正态分布是许多统计方法的理论基础,一方面许多统计方法是在正态分布的基础上建立起来的;
另一方面许多统计方法在一定条件下,有正态近似的方法。
4、随机现象的规律只有在大量重复观察的情况下才能够出现,对随机现象的研究答多是采用抽样研究的方法。
3个基于正态分布的抽样分布入
分布、t分布、F分布是统计推断的基础,具有重要的理论价值。
第六章参数估计
案例6-1某地随机抽样调查了部分健康成人的血红蛋白含量(g/L),结果见表6-16.
性别例数均数标准差标准值
男360134.57.1140.2
女255117.610.2124.7
*《实用内科学》(1976年)所载均数(转为法定单位)
(1)有人认为该地男女性血红蛋白含量均低于上表的标准值(若测定方法相同)且男性血红蛋白含量低于女性,你是否同意该结论?
(2)如何估计男女性血红蛋白含量的总体均数和参考值范围,两者有何区别?
1、抽样分布是通过大量重复抽样和计算各样本统计量并作样本统计量的频数分布图来揭示样本统计量的分布规律。
从同一总体反复抽取若干样本,各样本统计量之间及与总体参数之间存在差异,此差异称为抽样误差。
由于总体中个体变异的客观存在,抽样误差不可避免。
2、标准误是反映抽样误差大小的指标。
均数标准误的理论值是
样本估计值为
;
率的标准误理论值为
,样本估计值为
注意均数标准误与原变量的标准差之间的区别,不能混淆其含义。
3、参数估计是指用样本统计量推断总体参数。
有点估计和区间估计两种方法。
第七章假设检验
案例7-1某医院检验科测定了30-40岁不同职业、不同性别人群的血清甘油三脂含量(见表7-2)。
试分析比较工人和干部,男女的该项血脂水平有无差异?
表7-2正常成人按不同职业、性别分类的血清甘油三脂含量
人数均数标准差
工人1121.200.33
干部1061.080.30
男1161.170.32
女1021.110.32
1、用什么方法比较工人和干部、男和女血清甘油三脂含量的差异?
2、血清甘油三脂含量是常用的高血脂症筛查指标,血清甘油三脂含量升高常见于动脉粥样硬化、糖尿病、脂肪肝等的病人,男略高于女,参考值范围分别是男:
0.45-1.81mmol/L、女:
0.40-1.53mmol/L。
如何解释男女血清甘油三脂的差异?
3、如果工人组血清甘油三脂高于干部组,并且有统计学差异,能否说工人职业导致该人群血清甘油三脂的升高?
推论因果关联?
4、本研究工人组的血清甘油三脂平均高于干部组0.12mmol/L,是否有实际意义?
5、本研究工人组的血清甘油三脂高于干部组,男女血清甘油三脂未见有统计学差异,是否是混杂因素影响?
在比较均数之间差别时,如何根据现有资料分组计算均数,最大限度地减少性别对工人组和干部组血清甘油三脂的影响?
1、假设检验采用的是反证法思想,根据“小概率事件在一次试验中不可能发生”原理,用一次试验(观察)结果发生的概率决定是否拒绝原假设。
假设检验的常用方法有u、t、F、χ2检验与秩和检验。
2、假设检验的三个步骤:
①建立检验假设:
H0、H1,确定检验水准α。
②计算检验统计量;
③确定P值并作出推断结论。
3、已知总体方差
并且样本量比较大时,推断样本所代表的未知总体均数μ与已知总体均数μ0是否有差别,可采用Z检验。
已知总体方差
并且两组的样本量n1和n2比较大时,用
推断两总体均数之差是否为零,可采用两均数比较的Z检验。
4、大样本率的Z检验,要求n比较大,对统计量要求可简单概括为:
①如果样本率p介于0.1-0.9之间,每组例数大于60例;
②如果样本率p介于0.1-0.9之外,np或n(1-p)的最小值大于5。
5、假设检验的两类错误:
当H0为真时,由于抽样的偶然性而得到P≤α的检验结果,假设检验结论拒绝H0,接受了H1,称为第一类错误或Ⅰ类错误,犯一类错误的概率记为α。
当真实情况不成立而H1成立时,得到P>α的检验结果,拒绝H1,接受了H0。
这类错误称为第二类错误或Ⅱ类错误,其概率大小用β表示。
6、单侧检验与双侧检验:
单侧检验不仅关心差别,同时关心差别的方向,备择假设为H1:
μ1<μ2或H1:
μ1>μ2。
双侧检验只关心差别,不关心差别的方向,备择假设为H1:
μ1≠μ2。
两个均数或两个率的比较一般用双侧检验。
采用单侧检验应该在研究设计阶段作出规定,不应当在计算出统计量后再主观决定。
7、假设检验在拒绝H0的时候可以下“有差别”的结论,在不拒绝H0的时候不能下“无差别”的结论。
假设检验的的P值大小只能够说明统计学意义的“显著”,不一定有实际意义。
对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。
8、检验效能1-β表示H1为真,假设检验结果拒绝H0,接受H1的概率。
检验效能越高,通过样本发现总体差别的把握越大。
影响检验效能的4个因素分别是总体参数的差异|δ|、个体差异的总体标准差σ,样本量n和检验水准α。
9、在同一个研究中多次重复检验,即使总体参数没有差别,重复检验100次,平均有5次是假阳性错误,或重复检验20次,平均有一次是假阳性错误。
因此,在试验设计时就应该确定主要分析指标,不能事后通过大量重复检验寻找阳性指标。
10、要使假设检验的P值成为因果联系的证据,前提是要求研究设计符合“重复、对照、随机化”的3个实验设计基本原则,并且是前瞻性的研究,即试验对象随机分组后再施加干预。
第九章多个样本均数比较的方差分析
案例9-1某篇论文,研究4组病人某基因表达率的差异,结果见表9-16。
表9-164组病人某基因的表达率比较
组别n
tP
喉癌1923.0±
8.75.38<0.01
喉息肉1816.0±
10.26.24<0.01
转移癌159.0±
4.72.20>0.05
对照组227.0±
5.0
问:
(1)该资料分析是否恰当?
理由是哪几方面?
(2)若该资料交给你统计分析,你的分析计划怎样?
案例9-2某医生A,B,C3种营养素喂养小白鼠,用6窝小白鼠,每窝3只,随机安排喂养这3种营养素中的一种;
6周后观察小白鼠增加体重情况(g),得表9-17的资料:
表9-173种营养素喂养小白鼠所增加体重
窝别ABC均数
150576958.7
248596657.5
355616761.0
466547665.2
576818380.1
637466850.2
763505455.7
845434845.3
均数55.156.266.459.2
经过随机区组设计的方差分析得3种营养素间的F=6.319,P=0.011;
窝别的F=6.670,P=0.001。
认为营养素及窝别间两个因素均可影响增加体重,但营养素的作用不如窝别因素大。
窝别常反映遗传因素,证明遗传因素对增加体重影响明显。
(1)所用统计方法是否正确,为什么?
(2)作者结论是否正确,表现在什么方面?
1、方差分析常用于3个或3个以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t检验等价,即有如下关系:
t2=F。
2、方差分析的基础是分解变异,统计量是两个均方之比。
完全随机设计方差分析的基本思想是:
在多个总体均数相等的假设条件下,样本总变异及自由度可分解为处理和组内两部分,由此估计出处理均方和组内均方,前者反映处理作用及随机误差,后者仅为随机误差;
进一步将处理均方与组内均方之比值构成F统计量,查F检验界值表便可确定界值,最后做出是否拒绝检验假设的抉择。
3、方差分析由多种设计类型,但基本思想和计算方法是一样的,只是因素的个数不同。
4、均数的多重比较方法有多种,应用时应事先决定采用那一种方法。
5、方差分析的前提条件是正态性和方差齐性,可通过假设检验来判断,但通常情况下样本比较小,由专业知识判断显的很重要。
6、如果数据不满足方差分析的条件,可考虑采用数据转换的方法改善数据,或者采用非参数检验。
第十章
检验
案例10-1某研究者欲比较甲、乙两城市空气质量状况,在甲、乙两城市个测定300个采样点,得表10-17数据,试比较两城市空气质量有无差别。
表10-17甲、乙两城市空气质量状况比较
组别
空气质量类别
合计
优良轻度污染中度污染重度污染
甲城市
乙城市
合计
193
28
300
154
94
347
161
600
检验步骤:
(1)建立检验假设,确定检验水准
H0:
甲乙两城市空气质量无差别
H1:
甲乙两城市空气质量有差别
α=0.05
(2)计算检验统计量
(3)确定P值,作出推断结论
查
界值表,
=9.49,
=13.28,
,P<
0.01。
按α=0.05的检验水准,拒绝H0,接受H1,可认为甲乙两城市空气质量有差别。
请讨论如下问题:
(1)该资料结论是否正确?
(2)你认为应该如何分析资料?
1、使用卡方检验要注意理论频数T不能够太小,样本要求各格子理论频数不小于1,并且T<
5的格子数不宜多于总格子数的五分之一,如果理论频数太小,最好的办法是增加观察例数以增大理论频数,或考虑使用确切概率法。
2、完全随机设计的两个理论频数分布是互相独立的,而配对设计的两个频数分布却不是互相独立的。
设计方法不同,资料性质不同,分析方法也不同。
3、对反映两个属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立性的卡方检验和列联系数来描述关联性。
关联性分析卡方检
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 案例 doc