预防医学整理2医学统计学方法的基本概念和步骤Word文档格式.docx
- 文档编号:22940107
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:30
- 大小:347.23KB
预防医学整理2医学统计学方法的基本概念和步骤Word文档格式.docx
《预防医学整理2医学统计学方法的基本概念和步骤Word文档格式.docx》由会员分享,可在线阅读,更多相关《预防医学整理2医学统计学方法的基本概念和步骤Word文档格式.docx(30页珍藏版)》请在冰豆网上搜索。
μ的可信区间的估计
假设检验:
样本与总体
t检验
配对样本
两独立样本
u检验:
样本与总体、两独立样本
二、计数资料
率、构成比、相对比
π的可信区间估计
样本与总体、两样本
四格表资料
配对设计资料
R×
C表资料
选择检验方法的步骤:
一、分清资料类型:
计量资料
or
计数资料?
二、判断资料分布及设计
1
、计量资料:
a、两个独立样本均数比较:
n较大:
u检验
n较小:
t检验
b、配对设计两样本均数比较:
配对t检验
c、样本均数与总体均数比较:
n足够大或σ已知时:
n不够大且σ未知时:
d、多个(≥3)样本均数比较:
进一步两两比较:
ANOVA
:
q检验
2、
计数资料
a、两个独立样本率比较
u检验或四格表X2检验
四格表X2检验、
Fisher确切概率法
b、配对设计两样本率比较:
配对X2检验
c、样本率与总体率比较:
d、多个(≥3)样本率比较-----进一步两两比较
C表
-----X2检验
直线相关(linearcorrelation)是研究两个变量之间是否存在直线关系及相关密切程度与方向的统计分析方法,用于双变量正态分布资料。
三、直线相关分析中的注意事项
(1)
进行相关分析要有实际意义;
(2)
相关分析前首先绘制散点图;
(3)Pearson相关分析适用双变量正态分布资料;
(4)
据公式计算出的
r
仅是样本相关系数,它是
总体相关系数
ρ
的估计值,必须作假设检验;
(5)
接近
0
并不意味着两变量间一定无关;
(6)
不要把相关系数的假设检验结果误认为两事物或现象间相关的密切程度;
(7)
相关分析是用相关系数来描述两个变量间相关
关系的密切程度和方向,决不可因为两事物间的相关系数有统计学意义,就认为二者之间存在着因果关系,要证明两事物之间确定存在因果关系,必须凭借专业知识加以阐明。
直线回归(linearregression)是通过两个变量的数据资料求得两个变量间关系的直线回归方程,确定一条回归直线,用以描述两个变量间变化的数量关系。
直线回归分析的注意事项
²
两变量间的关系要有实际意义
因变量必须服从正态分布
回归方程的适用范围仅限于自变量的取值范围
当两变量变化趋势为非线性时,应考虑拟合非线性回归方程
判断总体是否存在直线回归关系,必须对回归
系数作假设检验;
直线相关与回归分析的关系
区别
1.
对资料的要求
相关分析:
要求双变量正态分布
回归分析:
因变量
Y
正态分布
自变量X
正态或控制
2.
分析内容
相关:
反映两变量是否有直线关系
回归:
反映两变量有什么样的直线关系
联系
同一组资料的
与
b
的正负符号一致,
且r
=0时b
=0;
和
的假设检验结果一致,
即
tr
=
tb
;
统计表(
statistical
table
)
从整理表中选出需要的资料,经过统计加工为各种指标后,列成对比分析的表格,包括研究对象及其统计指标两部分。
普通线图
(linechart)
用线段的升降表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于描述连续性资料。
半对数线图(semi-logarithmiclinechart)
⏹用于表示事物的发展速度,横轴为算术尺度,纵轴为对数尺度。
⏹当比较几组数据变化速度,尤其是两组数据相差悬殊时用半对数线图。
3.
直条图(barchart)
用等宽直条的长短表示各统计量的大小,有单式和复式两种,适用于指标为各自独立的分类资料。
4.
直方图(histogram)
又称频数分布图,用各矩形的面积表示
各组段的频数,各矩形面积的总和为总频数,
用于连续型资料的频数分布。
5.
百分条图(percentagebarchart)
用一个长条的面积表示事物全部,条内各段面积为相应部分所占的百分比,用于表示事物各组成部分的构成比,用于构成比资料。
圆图(piechart)
用圆的面积表示事物的全部,各扇形面积表示相应部分所占的百分比,用于表示事物各组成部分的构成比,用于构成比资料。
6.
散点图
适用于连续性双变量资料
7.
箱式图
用于比较两组或多组资料的集中趋势和离散趋势。
8.统计地图
表示某现象的数量在地域上的分布,根据指标大小和分级,采用不同密度的线条或不同的颜色,绘在地图上有助于分析疾病的地理分布特征。
图形选择
£
比较相互独立资料数据的大小,选直条图;
反映构成比资料,选圆图或百分比条图;
连续性资料,研究动态变化趋势,选线图;
比较变化发展速度,选半对数线图;
反映连续性资料的频数分布,选直方图;
双变量连续性资料,观察两个变量的变化趋势
和相互关系,选散点图;
探索数据分布和比较分布,选箱式图。
医学统计学(来自XX文库)
第一章医学统计学中的基本概念
1医学统计学中的基本概念
变异:
由众多的、偶然的、次要的因素造成的个体之间的差异称为变异。
总体:
总体(population)指特定研究对象中所有观察单位的测量值。
可分为有限总体和无限总
体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:
从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代
表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本特性代表性随机性可靠性可比性
小概率事件:
我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。
P值:
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。
p值是将观察结果认为有效即具有总体代表性的犯错概率。
一般结果≤0.05被认为是有统计学意义。
小概率原理:
一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。
统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型
(1)计量资料:
对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为
计量资料(measurementdata)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表
现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、
脉搏(次/分)、血压(KPa)等。
(2)计数资料:
将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料
(countdata)。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的
类别或属性。
如调查某地某时的男、女性人口数;
治疗一批患者,其治疗效果为有效、无效
的人数;
调查一批少数民族居民的A、B、AB、O四种血型的人数等。
(3)等级资料:
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察
单位数,称为等级资料(ordinaldata)。
等级资料又称有序变量。
如患者的治疗结果可分为治
愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别
却不能准确测量;
一批肾病患者尿蛋白含量的测定结果分为
+、++、+++等。
等级资料与计数资料不同:
属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:
每个观察单位未确切定量,故亦称为半计量资料。
抽样误差(samplingerror)是指样本统计量与总体参数的差别。
在总体确定的情
况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
系统误差:
由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。
它带有规律性,经过校正和处理,通常可以减少或消除。
随机测量误差:
在收集原始资料时,仪器由于各种偶然因素造成同一对象多次测定的结果不一致。
统计的步骤
医学统计工作的内容
1.实验设计:
设计内容包括资料收集、整理和分析全过程总的设想和安排。
设计是整个研
究中最关键的一环,是今后工作应遵循的依据。
2.收集资料:
应采取措施使能取得准确可靠的原始数据。
3.整理资料:
简化数据,使其系统化、条理化,便于进一步分析计算。
4.分析资料:
计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。
分
析资料包括统计描述和统计推断。
实验设计的基本原则
随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。
对照的类型
空白对照
实验对照
标准对照
自身对照
相互对照
历史对照
安慰剂对照
参数:
参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数
是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样
本,用算得的样本统计量估计未知的总体参数。
统计量:
统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本
统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机
变量。
完全随机设计常用的几种实验设计方法:
配对设计和完全随机设计
完全随机设计:
完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计:
是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组。
配对的因素是影响实验效应的主要非处理凶素。
第二章
集中趋势的统计描述
频数表的制作步骤以及频数分布表的用途(问答题)
频数分布表的编制步骤:
例:
某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。
114.4 117.2 122.7 124.0 114.0 110.8 118.2 116.7 118.9 118.1
123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0
119.8 116.8 119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5
119.7 124.9 126.1 120.0 124.6 120.0 121.5 114.3 124.1 117.2
120.2 120.8 126.6 121.5 126.1 117.7 124.1 128.3 121.8 118.7
1、找出观察值中的最大值(largestvalue)、最小值(smallestvalue),求极差(range)。
极差等于最大值减最小值。
本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm)
2、确定分组数和组距(classinterval)。
组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。
组距为相邻两组的间隔,组距=极差/组数。
本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。
3、确定组段。
第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。
最后组段包括最大值并写出其上限值。
4、划记。
将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。
例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。
5、统计各组段的频数。
全部数据划记完后,清点各组段的人数。
根据编制出的频数表即可了解该数值变量资料的频数分布特征。
频数分布表的用途
1、描述资料的分布特征和分布类型。
频数分布有两个重要特征:
集中趋势和离散趋势。
大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。
频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
2、便于进一步计算有关指标或进行统计分析。
当数据较多且需手工计算时,常先编制频数表,再进行统计计算。
3、发现特大、特小的可疑值。
如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。
4、据此绘制频数分布图。
描述数据分布集中趋势的指标和描述数据分布离散程度的指标
2. 描述数据分布集中趋势的指标
掌握其意义、用途及计算方法。
算术均数
意义
即均数,用于说明一组观察值的平均水平或集中趋势,是描述计量资料的常用方法。
计算方法
直接法
加权法
用途
适用对称分布或偏度不大的资料,尤其适合正态分布资料。
几何均数、
描述按倍数关系变化的观察值这一类特殊资料。
计算方法
中位数。
百分位数(Px)只在一组数据中找到这样一个值,全部观察值得x%小于Px,其余的大于它。
用途描述资料的观察值序列在某百分位置的水平,中位数为其特例。
1. 描述数据分布离散程度的指标
极差、(全距)观察值中最大值和最小值之差,
四分位数间距、把所有的观察值排序后,分成四个数目相等的段落,每个段落的观察值各占0.25,去两端的0。
25,取中间的0.5的数据范围。
方差、
平均偏差,每个观察值与均数之差的绝对值相加然后取平均。
离均差平方和,每个观察值与均数之差的平方和。
方差离均差平方和再取平均,s2=(x-x)|2(n-1)
标准差、方差取平方根,还原成与原始观察值单位相同的变异量度。
变异系数。
相对指标,对均数相差较大或单位不同的几组观察值的变异程度进行比较。
正态分布的特征(考选择题
υ、σ对图形的影响)
服从正态分布的变量的频数分布由υ、σ完全决定。
(1)υ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以x=υ为对
称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于υ。
(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数
据分布越集中。
σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲
线越瘦高。
标准正态分布
1.标准正态分布是一种特殊的正态分布,标准正态分布的υ
0,σ2
1
,通常用u(或
Z)表示服从标准正态分布的变量,记为υ~N(0,12)。
正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,
呈现为正态或近似正态分布;
有些指标(变量)虽服从偏态分布,但经数据转换后的新变量
可服从正态或近似正态分布,可按正态分布规律处理。
其中经对数转换后服从正态分布的指
标,被称为服从对数正态分布。
估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式
(3-2)估计任意取值(X1,X2)范围内频数比例。
制定参考值范围
(1)正态分布法
适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态
分布的指标。
(2)百分位数法
常用于偏态分布的指标。
表3-1
中两种方法的单双侧界值都应熟练掌握。
质量控制:
为了控制实验中的测量(或实验)误差,常以X
2S作为上、下警戒值,
以X
3S
作为上、下控制值。
这样做的依据是:
正常情况下测量(或实验)误差服从正态分
布。
正态分布是许多统计方法的理论基础。
t
检验、方差分析、相关和回归分析等多种统
计方法均要求分析的指标服从正态分布。
许多统计方法虽然不要求分析指标服从正态分布,
但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布
为理论基础的。
医学参考值范围的制定(计算题)
概念(正常值范围)指正常人的解剖生理生化免疫及组织代谢产物的含量等各种数据的波动范围。
制定方法
(1)从足够数量的正常人总体中抽样
(2)控制测量误差
(3)判定是否需要分组确定参考值范围
(4)决定单侧还是双侧
(5)选择合适的百分上限,最常用95%
(6)对资料的分布进行正态性检验
(7)根据资料的分配类型选定恰当的方法进行参考值范围的估计。
确定参考值范围的单双侧:
一般生理物质指标多为双侧、毒物指标则多为单侧。
确定百分位点:
一般取95%或99%。
抽样误差与假设检验
标准误的概念,计算公式。
标准误及σX:
通常将样本统计量的标准差称为标准误。
许多样本均数的标准差σX
称为均数的标准误(standarderrorofmean,SEM),它反映了样本均数间的离散程度,也反
映了样本均数与总体均数的差异,说明均数抽样误差的大小。
标准差与标准误不同:
(1)二者描述内容不同:
前者个体变异;
后者群体变异。
(2)二者与n样本含量关系不同:
n很小时S不稳定,n足够大时S接近总体标准差;
而S不变时,n接近无穷大时,标准误接近0。
(3)二者用途不同:
S:
描述观察值的离散程度/计算CV即变异系数/估计医学参考值范围/计算标准误;
标准误:
反映均数抽样误差大小/估计总体均数可信区间/用于假设检验。
t分布的图形特征及其与正态分布的区别
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平;
自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t分布
对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。
分布与正态分布
分布与标准正态分布相比有以下特点:
①都是单峰、对称分布;
②t
分布峰值较低,而
尾部较高;
③随自由度增大,t
分布趋近与标准正态分布;
当n
®
¥
时,t
分布的极限分布
是标准正态分布。
置信区间和参数估计
(名解2选1)
置信区间,定义:
是指由样本统计量所构造的总体参数的估计区间。
1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。
2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。
3、该区间包含了参数θ真值的可信程度。
4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。
指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种
方法:
点估计和区间估计。
可信区间与参考值范围的不同点(简答)
假设检验的基本求解步骤及其注意事项。
(两个考一个问答)
假设检验的基本步骤:
1.建立假设,确定检验水准α
假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。
H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。
检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。
2.根据研究目的和设计类型选择适合的检验方法
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。
对双样本资料,要注意区分成组设计和配对设计的资料类型。
如果资料里有"
配成对子"
字样,或者是对同一对象用两种方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 预防医学整理2 医学统计学方法的基本概念和步骤 预防 医学 整理 统计学 方法 基本概念 步骤