试验数据统计分析步骤.docx
- 文档编号:26049696
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:19
- 大小:1.10MB
试验数据统计分析步骤.docx
《试验数据统计分析步骤.docx》由会员分享,可在线阅读,更多相关《试验数据统计分析步骤.docx(19页珍藏版)》请在冰豆网上搜索。
试验数据统计分析步骤
试验数据统计分析教程
第一章:
数据分析基本方法与步骤
§1-1:
数据分类(定量资料和定性资料)
统计资料一般分为定量资料和定性资料两大类。
定量资料测定每个观察单位某项指标量的大小,所得的资料称为定量资料。
定量资料又可细分为计量资料(可带度量单位和小数点,如:
某人身高为1.173m)和计数资料(一般只带度量单位,但不可带小数点,如:
某人脉搏为73次/min)。
①计量资料在定量资料中,若指标的取值可以带度量衡单位,甚至可以带小数标志测量的精度的定量资料,就叫“计量资料”。
例如测得正常成年男子身高、体重、血红蛋白、总铁结合力等所得的资料。
②计数资料在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数即只能取整数,通常为正整数的定量资料,就叫“计数资料”。
例如测得正常成年男子脉搏数次、引体向上的次数次。
定性资料观测每个观察单位某项指标的状况,所得的资料称为定性资料。
定性资料又可细分为名义资料(如血型分为:
A、B、AB、O型)和有序资料(如疗效分为:
治愈、显效、好转、无效、死亡)。
①名义资料在定性资料中,若指标的不同状况之间在本质上无数量大小或先后顺序之分的定性资料,就叫“名义资料”。
例如某单位全体员工按血型系统型、型、型、型来记录每个人的情况所得的资料;又例如某市全体员工按职业分为工人、农民、知识分子、军人等来记录每个人的情况所得的资料。
②有序资料在定性资料中,若指标质的不同状况之间在本质上有数量大小或有先后顺序之分的定性资料,就叫“有序资料”。
例如某病患者按治疗后的疗效治愈、显效、好转、无效、死亡来划分所得的资料;又例如矽肺病患者按肺门密度级别来划分所得的资料。
判断资料性质的关键是把资料还原为基本观察单位的具体取值形式,而不要被资料的表现所迷惑。
关键是要看每一个具体的取值是由“观察单位个数”计算得到的,还是由每一个观察单位自身的观测结果计算得到的。
若属于前者,就应叫定性资料。
若属于后者,就应叫定量资料。
§1-2:
重复取样、重复测量、重复试验
重复原则的概念重复通常有三层含义,即“重复取样”、“重复测量”和“重复试验”。
1,重复取样:
从同一个样品中多次取样,测量某定量指标的数值,称为“重复取样”。
2,重复测量:
对接受某种处理的个体,随着时间的推移,对其进行多次观测,称为“重复测量”。
3,重复试验:
试验设计中所讲的重复原则指的是“重复试验”,即在相同的试验条件下,做两次或两次以上的独立试验。
这里的“独立”是指要用不同的个体或样品做试验,而不是在同一个体或样品上做多次试验。
整个试验设计所包括的各组内重复试验次数之和,称为样本大小或样本含量(n)。
相同的试验条件下,对不同的受试对象(或样品)进行观测称为n次独立的重复试验。
在不同的试验条件下(通常为不同时间),对同一受试对象进行反复观测,称为重复测量。
重复测量数据之间并不满足独立性的要求。
相同试验条件下的试验次数称为样本含量n,n≤3,当指标的变异度较大时,很难呈现出数据之间的规律性。
对照组的形式有多种,即自身对照(处理前、后对照)、完全随机对照(空白对照、相互对照、试验对照、标准对照)、中外或历史对照。
在实际应用中,往往是多种对照形式同时运用。
§1-3:
试验设计的基本类型
试验设计类型有几十种,其中常见的有:
配对设计、成组设计、单因素K水平设计(K≥3)、配伍组设计、拉丁方设计、交叉设计、析因设计、正交设计和具有重复测量的设计。
从是否便于考察因素之间交互作用的角度看,前六种设计都不便考察交互作用,后三种设计是可以考察交互作用的。
从同时考察因素的个数多少角度看,前三种设计都属于单因素设计,配伍组设计属于二因素设计,拉丁方设计、交叉设计都属于三因素设计,而后三种设计即可以用于二因素设计,又可以用于多因素设计。
由于配伍组设计、拉丁方设计和交叉设计都不便考察交互作用,故最适合用于安排只含一个处理因素,含一个或二个区组因素的试验研究场合。
如果试验中同时涉及二个或二个以上处理因素,因素之间的交互作用往往又是不可忽视的,此时,就应当选用析因设计或正交设计。
如果希望观察接受不同处理的几组受试对象某些定量观测指标随时间推移的动态变化趋势,需要在不同时间点上从同一个受试对象身上进行多次观测,这就是所谓的重复测量设计。
§1-4:
定量资料的分析程序
一、定量资料分析的步骤
①若数据服从正态分布,且满足方差齐性(即两组或多组总体方差相等),一般优先选用参数检验法,如t检验、U检验、方差分析(亦称F检验)等;
②若数据的分布类型不明确,或不满足参数检验的前提条件,可选用非参数检验法,如符号检验,秩和检验等;
③若资料经某种变量变换后已满足参数检验的前提条件,仍可对变换后的数据进行参数检验;
④若只有一个试验因素,称为单因素,当它只有两个水平时,可选用t检验;当两组样本含量都很大时,可用U检验取代t检验;
⑤若属单因素k水平设计(k≥3)或两个及两个以上因素的各种试验设计时,都必须选用F检验;
⑥若观察的效应指标(即研究者关心的定量观测指标)只有一个,可选择上述特定设计类型下的一元分析;
⑦若效应指标有两个或两个以上,且在专业上需同时考察,则应选择多元分析方法。
二、定量资料分析误区
1,t测验适用范围及应用误区
t检验的前提条件:
用于比较均值的t检验可以分成3类。
第一类是针对单组设计定量资料的;第二类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。
后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面特征相似配成对子。
无论哪种类型的t检验,都必须在满足特定的前提条件下应用才是合理的。
t测验进行均值比较对应的试验设计类型较少,只有单组设计、配对设计和成组设计3种,t测验处理前2种设计类型的定量资料时,资料应满足正态分布的要求,处理成组资料时,应满足方差齐性和正态分布的要求。
t检验每次只能比较二个平均数,因此,它仅适用于单因素一、二水平的实验设计类型。
t检验仅适合分析单组、配对及成组设计的定量资料,并不适合分析单因素k(k≥3)水平设计定量资料和多因素设计定量资料。
当设计类型为单因素多水平或多因素设计时,若仍用t检验分析资料,是不妥当的。
对于配对设计的定量资料,应计算各配对数据的差值,将资料转换为单组设计的定量资料,比较差值的平均值与0之间的差别是否具有统计学意义。
当然进行单组设计的t检验前仍要对数据作正态性检验,如不满足正态性的前提条件,可寻找适当的方法(如取对数,平方根变换等)对数据进行变量变换,变量变换后还要进行正态性检验,若资料满足正态分布的前提条件,可用t检验;若资料仍不满足正态分布的前提条件,可采用非参数检验,如配对设计定量资料的符号秩检验进行分析。
2,单因素方差分析及多重比较
如果单因素多水平资料分别满足正态性、方差齐性,则可选用方差分析。
若方差分析的结果为各组均数之间的差别有显著或非常显著性意义(P<0.05或P<0.01),尚需作多个均数之间的两两比较。
若各组中任何两组之间都需要比较,有多种方法,其中较常用的方法叫q检验;若只比较处理组(多组)与对照组,则应选用dunnett的t检验。
后者与通常的t检验(称为student’stest)是有很大区别的。
对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,当资料满足正态性和方差齐性的前提条件后,可采用方差分析处理资料;若变量变换后仍不满足前提条件,则应采用非参数检验。
若资料中的数据均为正值且符合正态分布,通常其标准差要小于均值。
3,如何比较重复测量结果
数据特征:
首先,应知道什么样的设计叫做重复测量设计。
简单地说,对一组或多组受试对象,在k个(k≥2)不同的时间点上,从每个个体(或样本)上重复观测同1个指标的具体取值的设计,统称为重复测量设计。
若重复测量数据在各时间点之间的关系满足一种特殊的条件(称资料满足H2F条件,则可将各时间点上测得的数据看作受“时间因素”影响的结果。
在每次仅考察一个定量指标时,可以用重复测量设计资料的单变量方差分析处理资料;反之,可对数据作正交变换,若此时的资料满足H2F条件,就可作正交回归模型分析;若资料也不适合作正交回归模型分析,需将从各时间点上测得的数据视为测自不同的指标,采用多变量方差分析;此时,还可进一步考察各时间点上数据之间是否具有某种特殊关系(称为协方差结构),从而采用更细致的混合模型分析法。
资料是否满足H2F条件,需要进行球形检验(sphericitytest),当检验的结果为P>0.05时,表明资料满足H2F条件
§1-5:
相关和回归分析
一、相关和回归分析的异同
1,直线相关和回归分析的差异
适用于两个变量之间的分析(即一个自变量和一个因变量)。
①分析目的不同
直线相关分析的目的是描述具有直线关系的两变量间相关关系的密切程度和方向,反映两个随机变量的相互关系。
直线回归分析的目的是定量地描述两个变量之间的依存或依赖关系,以便用一个变量去推测另一个变量的值。
②资料要求不同
回归分析只要求Y服从正态分布,相关分析要求X、Y均服从正态分布。
直线回归分析时,要求响应变量是随机变量且服从正态分布。
若自变量可以精确测量和严格控制,此时资料为Ⅰ型回归分析资料;若自变量也是随机变量且服从正态分布,则资料为Ⅱ型回归分析资料。
在进行直线相关分析时,则要求两个变量均为随机变量且服从正态分布,也就是说只有Ⅱ型回归分析资料才能进行直线相关分析(Spearman秩相关分析可分析定量资料与定性资料的相关性)。
③统计量量纲单位不同
相关系数是无量纲的统计量,而斜率却是有量纲的统计量,其量纲为“响应变量量纲自变量量纲”,截距的量纲与响应变量量纲相同史。
2,相关和回归分析的相同点
①方向一致
对某资料同时计算直线相关系数和直线回归系数,可发现它们的正负号一致。
②假设检验等价
对同一样本,对其直线相关系数和直线回归系数进行假设检验所得到的值是相同的。
3,直线相关与回归分析的关键点(绘制散布图)
将(X,Y)的n对数值绘在直角坐标系内,得到X与Y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地分布着,此“长带”不与X轴平行,也不与Y轴垂直,且各散点的分布情况不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明X与Y之间无确定的变化趋势,几乎是互相独立的,不能硬把他们捏合在一起分析。
4,直线相关与回归分析要点总结
①必须有专业知识为依据;②必须绘制散布图,并正确分析散布图;③计算关键的统计量(如r、a、b),并进行假设检验;④结合专业和统计学知识判断所作的统计分析是否有实用价值。
若是直线相关分析,就是要结合r2的数值大小(一般应r2>0.5),给出较为明确的专业结论;若是直线回归分析,就是要看所拟合的直线回归方程与全部散点的吻合程度,对直线回归方程中的2个参数(总体截距、总体斜率)的假设检验是否都具有统计学意义,其正负号是否符合专业上的含义,整个直线回归方程的剩余标准差是否较小,将各X值代入直线回归方程后,其对应的Y的预测值在专业上是否都成立。
二、一元多因素回归分析方法
当结果变量(常称为应变量)依赖于原因变量(常称为自变量)变化时,研究应变量随多个自变量变化的规律所对应的统计分析方法,称为多重回归分析。
进行多重回归分析时应把握的要领如下。
①当应变量为近似服从正态分布的随机变量时,常选用多重线性回归分析。
②当应变量分别为二值变量、多值有序变量或多值名义变量时,应分别采用一般的多重logistic回归分析、有序变量的多重logistic回归分析和扩展的多重logistic回归分析。
备注:
可用Grubbs法检验某些“可疑值”是否为异常值。
§1-6:
定性资料的统计分析
一、定性资料与列联表
定性资料(如治愈、未愈),一般不以个体为计量单位,而是以处理组为计量单位,换句话说,资料以分组且用表格的形式呈现出来,这种表通称为“列联表”。
一般来说,一个列联表中只有一个结果变量,其他都是原因变量,但也有少数列联表中的变量不包含结果变量,此时只能考察全部定性变量全部水平组合下的频数分布情况。
定性资料有些属于原因、有些属于结果,若将定性变量的具体取值一一列出,则不便看出资料之间内在的联系,故人们常以表格的形式对资料进行整理或归纳,这种表格被称为列联表。
只含有两个定性变量,因而叫做二维列联表,表中的原始频数只有两行两列,简称为2×2表或四格表;而表中的原始频数占3行4列,故简称为3×4表,一般被简称为R×C表;表中含有3个定性变量,故被称为三维列联表,当列联表中定性变量的个数大于等于3时,一般被统称为高维列联表。
二、定性资料分析步骤
正确地实现定性资料的统计分析,关键是三点。
其一,给定性资料所对应的列联表命名;其二,弄清统计分析的目的;其三,检查定性资料是否具备某些特定分析方法所要求的前提条件。
每次只分析两个定性变量时,可将资料整理为2×2表、2×k和R×X表的形式。
常用的统计分析方法有Pearsonχ2检验、校正χ2检验、配对计数资料的MxNemarxχ2检验、Fisher的精确检验、秩和检验、Ridit分析、等级相关分析、典型相关分析、一般趋势和线性趋势检验、Kappa检验等;若需要同时分析的定性变量的个数≥3时,常用的统计分析方法有加权χ2检验、Mantel-haenszelχ2检验、logistix回归模型和对数线性模型等。
一般χ2检验与变量的有序性没有联系,用一般χ2检验进行分析,得到的结论是两组的频数分布是否相同,而不能得出两组疗效之间的差别是否具有显著意义的结论。
一般χ2检验只能用来考察列联表资料的行变量与列变量之间是否独立。
分析定性资料的相关分析方法,如:
Spearman秩相关分析,Kendall秩相关分析或典型相关分析。
三、2×2表资料的分析方法
1,2×2表资料分析方法概述
关于2×2表资料的统计分析方法的合理选择:
2×2表资料的统计分析方法取决于其设计类型,即横断面研究设计、队列研究设计、病例对照研究设计和配对设计四种类型,每种类型又需考虑一些具体情况,方可选择较为合适的统计分析方法处理资料。
常用的方法有:
一般χ2检验、校正χ2检验、Fisher的精确检验;计算相对危险度(RR)、计算比数比(OR)、检验总体RR(或OR)与1之间的差别是否具有统计学意义的χ2MH检验;配对设计定性资料的McNemarχ2检验。
一般认为,2×2表资料采用Fisher精确检验法结果比较可靠,若用统计软件实现统计计算,均可选用Fisher精确检验计算的结果。
对于二维列联表而言,一般可分为以下4类:
第1类:
双向无序的二维列联表。
当表中小于5的理论频数的个数小于总格子数的1/5时,需要选用Fisher的精确检验,否则,可以选用χ2检验。
若是2×2表(或称四格表),应根据实验设计类型,选择相应的统计分析方法:
若属横断面研究设计,当缺乏统计软件进行Fisher精确计算时,还可考虑用校正的χ2检验;若属队列研究设计或病例对照研究设计,先将其视为横断面研究设计资料处理,当得到P<0.05时,在求出相对危险度RR(队列研究设计时用)或比数比OR(病例2对照研究设计时用)后,用χ2MH计算公式检验RR(或OR)是否等于1。
第2类:
结果变量为有序变量的二维列联表。
此时,所选用的统计分析方法必须与结果变量的有序性有联系,可供选用的统计分析方法有“秩和检验”Ridit分析”与“有序变量的Logistic回归分析”。
第3类:
双向有序且属性不同的二维列联表。
此时,根据实际情况可能提出四个不同的分析目的,将对应四套分析方法:
目的一:
仅关心结果变量的有序性,可将其视为前面介绍的“第2类列联表”,选择相应的统计分析方法;目的二:
希望研究两有序变量之间的相关性的高低,此时宜选用定性资料的相关分析,如Spearman秩相关分析或典型相关分析;目的三:
希望研究两有序变量之间是否存在线性变化趋势,可以选用线性趋势检验;目的四:
希望研究各实验分组中的频数分布是否相同,此时可选用一般χ2检验或Fisher精确检验(注意:
此时的结论不应该是“行变量与列变量之间呈正相关或负相关关系”)。
第4类:
双向有序且属性相同的二维列联表。
这种表一般都是考察用两种类似的检测方法检测同一批样品,看检测结果是否一致,故需要做一致性检验或称Kappa检验。
若是2×2表时,通常称为配对设计的四格表,此时,常检验不一致部分相差是否具有统计学意义,用McNemarχ2检验;当然,也可做一致性检验。
但这两种检验的目的和对检验结果的解释是不同的。
2,3种分析2×2表资料的方法的注意事项
①一般的χ2检验;②连续性校正的χ2检验;③Fisher的精确检验。
选择条件:
当总样本含量n≥40,且理论频数T均大于5时,选用方法①;当总样本含量n≥40,但有理论频数满足1≤T<5时,选用方法②;当总样本含量n<40或有理论频数小于1时,选用方法③。
样本较小的定性资料的统计分析,一般不宜采用χ2检验,而应选用Fisher的精确检验来处理。
配对研究设计的2×2表资料,对于隐含金标准和特设金标准的2×2表资料,可有2种统计分析方法:
①检验2种方法检测结果不一致部分差异是否具有统计学意义,可用McNemarχ2检验公式计算;②检验2种检测方法检测结果是否具有一致性,可用Kappa检验(即一致性检验)法。
比较两种检测方法的检测结果是否一致,原本属于配对设计问题,但人们在收集资料时常按成组设计形式列表,这样就将配对设计问题人为地转化为成组设计的问题了,通常都会降低检验的功效。
3,理论频数的计算方法
与各原始频数对应的理论频数的计算方法为:
与特定格对应的行合计与列合计相乘后除以n。
例如,与观察频数“a”对应的理论频数=(e×g)/n。
四、R×C表资料的分析方法
R×C表资料的统计分析方法取决于表中两定性变量的性质和分析目的,按性质可将此类列联表分为以下四类:
即“双向无序的R×C表”、“结果变量为有序变量的单向有序的R×C表”、“双向有序且属性不同的R×C表”和“双向有序且属性相同的R×C表”。
对于R×C表资料,还需结合资料所具备的条件或分析目的,选用合适的统计分析方法,他们是:
一般χ2检验、Fisher的精确检验;秩和检验、Ridit分析、有序变量的Logistic回归分析;秩相关分析或典型相关分析;线性趋势检验;一致性(或叫Kappa)检验或特殊模型分析。
1,双向无序的R×C表资料
顾名思义,就是表中2个定性变量都是名义变量,表中没有小于5的理论频数,可以选用一般的χ2检验公式计算。
表中小于5的理论频数的格子数若过了总格子数的1/5,若仍选用一般的χ2检验公式计算,将会增大犯假阳性错误的概率,故应改用Fisher的精确检验法。
2,单向有序的R×C表资料
“结果变量为有序变量的单向有序R×C列联表”,可以选用的统计分析方法有秩和检验、Ridit分析和有序变量的logistic回归分析;原因变量为有序变量的单向有序R×C列联表C列联表”,应被视为“双向无序的R×C列联表”,因列联表内小于5的理论频数的格子数超过了总格子数的1/5,故宜选用Fisher的精确检验法。
3,双性有序且属性不同的R×C资料
R×C列联表中的2个定性变量都是有序变量,且它们的属性(如一个变量为年龄,而另一个变量为疗效,显然它们反映了事物的不同方面,称为属性)不同,此时,称这样的列联表资料为双向有序且属性不同的R×C列联表资料。
一般来说,有以下4个可能的分析目的。
⑴只关心各年龄组患患者治疗结果之间的差异是否具有统计学意义,此时,年龄的有序性就变得无关紧要了,可将此时的“双向有序R×C列联表资料”视为“结果变量为有序变量的单向有序R×C列联表资料”,可以选用的统计分析方法有秩和检验、Ridit分析和有序变量的logistic回归分析。
⑵若希望考察年龄与疗效之间是否存在线性相关关系,此时,需要选用处理定性资料的相关分析方法,通常采用Spearman秩相关分析方法。
⑶若2个有序变量之间的相关关系具有统计学意义,研究者希望进一步了解这2个有序变量之间的变化关系是呈直线关系还是呈某种曲线关系,此时宜选用线性趋势检验。
⑷若希望考察列联表中各行上的频数分布是否相同,宜选用一般χ2检验或Fisher的精确检验(若列联表内小于5的理论频数的格子数超过了总格子数的1/5)。
当R×C列联表中的2个定性变量都是有序变量,且它们的属性相同,则称这样的列联表资料为双向有序且属性相同的R×C列联表资料,这样的资料被称为双向有序且属性相同的“方形”列联表资料,简称为“方表”。
这样的资料实际上就是配对设计2×2列联表资料的“扩大”,只不过在处理配对设计2×2列联表资料时,人们更关心的是2种检测方法检测的结果不一致部分的数量之间的差异是否具有统计学意义,而在处理“方表”资料时,人们更关心的是2种检测方法检测的结果之间是否具有一致性,故常用的统计分析方法叫做一致性检验或称为Kappa检验。
五、高维列联表资料的分析方法
高维表资料的统计分析方法取决于表中定性变量是否能分出“原因和结果变量”,若分不出原因和结果变量,一般需要选用对数线性模型分析法。
若分得出原因和结果变量,则可分为以下3种情形:
即结果变量为二值变量的高维表、结果变量为多值有序变量的高维表和结果变量为多值名义变量的高维表。
结果变量为二值变量的高维列联表。
可以选用多元Logistic回归分析或对数线性模型分析,某些特殊情况下还可选用加权χ2检验。
第2类:
结果变量为多值有序变量的高维列联表。
可以选用有序变量的多元Logistic回归分析。
第3类:
结果变量为多值名义变量(如血型)的高维列联表。
可以选用对数线性模型分析或扩展的多元Logistic回归分析。
多(五)维列联表资料,处理这种资料可供选用的统计分析方法有两种,其一,对数线性模型,用此法是比较复杂的,要想寻找到最佳的模型,非下大功夫不可。
其二,采用多元Logistic回归分析模型,用此法也需要下点功夫方可获得较为理想的计算结果,不仅考察了多个定性的原因变量、还同时考察了多个交互作用项对观测结果变量的影响.
§1-7:
图表及其他
一、相对数
“比与率”有时较难分清,因此,人们在使用中经常混淆。
它们的共同点在于求率与比时所用公式的基本形式是完全相同的,都是由两个绝对数之商乘以100%。
它们的不同点在于率反映某种事物或现象发生的强度,而比则反映“部分与整体”或“某一部分与另一部分”之间的关系。
率是强度相对数,表示在一定范围和时间内,某现象的发生次数与该现象可能发生的总次数之比,说明该现象发生的强度。
构成比它表示仅具有属性的那一部分个体数目占全部个体总数的比重。
构成比的一个明显特点是属于同一整体的各项之和必须是100%。
相对比它是两个有关指标数值之比,说明两者的对比水平:
用来反映发展速度时,定基比与环比分别为定基比各时间点上的统计指标都以第个时间点上的统计指标为分母求得环比各时间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验 数据 统计分析 步骤