重复测量数据分析及结果详解之二广义估计方程.docx
- 文档编号:23772828
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:9
- 大小:393.51KB
重复测量数据分析及结果详解之二广义估计方程.docx
《重复测量数据分析及结果详解之二广义估计方程.docx》由会员分享,可在线阅读,更多相关《重复测量数据分析及结果详解之二广义估计方程.docx(9页珍藏版)》请在冰豆网上搜索。
重复测量数据分析及结果详解之二广义估计方程
重复测量数据分析及结果详解(之二)——广义估计方程
小白学统计
微信号stats_for_dummy
功能介绍以通俗易懂的语言介绍并推广统计学,让即使完全不懂统计的小白也能够看懂。
2020-07-17
收录于话题
上一篇文章主要介绍了重复测量方差分析的基本思想是什么、它能做什么、怎么做、结果怎么解释,这几个问题。
最后同时指出重复测量方差分析还是有一定局限,起码不够灵活。
所以本文在上一篇文章基础上继续介绍医学重复测量数据中第二种常用方法:
广义估计方程(Generalized Estimated Equation, GEE)。
同样,本文也在基础上,稍作修改,有些地方加点通俗的注释,以便感兴趣的读者更好理解。
二、广义估计方程
(一)广义估计方程的思想
广义估计方程的计算过程很复杂,但思想却并不难理解。
该方法假定在多次测量之间存在一定的相关结构(广义估计方程中叫做作业相关矩阵)。
对于重复测量数据而言,最主要的问题就是存在各次测量之间的相关性,从而不能用常规的线性模型等方法。
所以广义估计方程思想很简单,就是把这种相关进行校正一下,然后得到校正后的参数估计值,这样就比较可靠了。
(二)广义估计方程中的作业相关矩阵
由于不同时间点观测之间的相关大小存在各种可能性,因此作业相关矩阵也有多种,常见的包括:
(1)独立结构(independencestructure),即不同时间点上的测量值之间彼此独立,无相关关系。
这种结构因为数据完全独立,实际上也无需考虑广义估计方程,直接采用常规的广义线性模型即可。
(2)等相关结构(exchangeablecorrelationstructure),即假定任意两次观测之间的相关性是相等的,不随两个时间点之间的间隔大小而改变。
不管是第1次观测与第2次观测,还是第3次观测与第5次观测,相关系数都相等。
(3)一阶相关结构(one‐dependentstructure),表示某时间点的测量值只与其临近时间点的观测存在相关性,而与其他时间点的观测无关。
例如,第2次观测只与第1次和第3次有相关,而与第4次无关。
(4)自相关(autocorrelation),即相关大小与间隔次数有关,相邻两次观测之间相关较强,间隔越远,相关性越小。
例如,第2次观测与第1次和第3次观测相关性较大,与第4次观测的相关性较小。
(5)无结构相关(unstructuredcorrelation),即假定不同时间点观测值的相关系数各不相等,不存在前面几种相关结构的规律。
作业相关矩阵的选择是广义估计方程中很关键的一部分,需要一定的统计学知识来判断。
不少研究认为,作业相关矩阵的选择对参数估计结果的影响不大。
然而实际数据分析中,指定不同的作业相关矩阵有时确实会产生不同的参数估计值和标准误(尽管这种情况很少见)。
尽管一般差别不大,但笔者仍建议,尽量指定最为合适的作业相关矩阵,以获得最可靠的估计结果。
如何选择合适的作业相关矩阵,建议结合以下两种方式综合考虑:
(1)根据不同时间点观测值的相关系数矩阵考虑。
简单来说,先计算各次相关系数,大致观察一下相关系数情况,然后进行判断。
如果任意两次的相关系数差不多,可考虑等相关;
如果相关系数出现随时间间隔而规律性减小的趋势,可考虑自相关;
如果无明显的规律,可考虑无结构相关。
理论上,指定无结构相关最为稳妥,可以满足任意情形的相关系数矩阵,但它需要估计的参数也最多。
例如,对于5次重复测量,如果指定等相关,只需要估计1个参数即可(只有1个相关系数);而无结构相关则需要估计任意两个时间点的相关系数,即10个参数,估计参数过多容易导致统计学效能(power)的降低。
因此,实际分析中需要综合考虑,根据相关系数矩阵的提示选择较为合理的作业相关矩阵。
(2)结合QIC指标(quasi‐likelihoodundertheindependencemodelcriterion)选择。
QIC类似于广义线性模型的拟合优度指标AIC,只是最大似然值换成了准似然值。
对QIC不理解也无所谓,关键知道,其值越小表示选择的作业相关矩阵越合适。
与AIC指标类似,QIC指标中也有对变量的惩罚项,即QIC值不一定随着模型中变量的增多而变小,只有模型中含有意义的变量,其值才会变小,提示模型更优;如果纳入无意义的变量,其值反而会升高,提示模型变差。
实际分析时,可以分别指定不同的作业相关矩阵,然后比较各自的QIC值,选择其中较小者。
(三)广义估计方程的用途
广义估计方程主要用于重复测量数据的分析,这里的重复测量不仅包括临床试验中较为固定、时间点较少的情形,也包括像生长发育监测、流行病学人群纵向观察等时间点较为灵活或时间点较多的情形。
在临床试验的重复测量数据分析中,广义估计方程也可以用于组间比较、时间点的比较、组间趋势变化的分析。
在其他纵向观测数据中,广义估计方程可根据研究目的进行灵活分析。
(四)广义估计方程的SAS软件实现
我们仍然采用上一篇文章的数据作为例子。
为了方便,我们把上一篇文章的基本数据(表1)和图示(图1)放在下面,免得大家来回翻。
广义估计方程的操作需要先进行一定的探索,确定作业相关矩阵(其实往往很多统计分析都是这样,真正写在文章中的结果都是精华,但其实可能前期我们已经做了非常多的工作,但不可能把所有工作都写在文章里)。
本例中我们分别指定了各种不同的作业相关矩阵,结果均一致,因此本例可任意指定一种作业相关矩阵,结果不受影响。
简单起见,我们指定作业相关矩阵为等相关。
对例1数据采用基于等相关作业相关矩阵的广义估计方程,首先不加入时间与组别的交互项,先分析时间与组别各自的主效应(主效应是基于所有人(即不分组)的结果)。
SAS程序如下:
dataex2;
inputidgrouptimey;
cards;
……;
procgeedata=ex2;
classidtime/param=referenceref=first;
modely=timegroup;
repeatedsubject=id/within=timetype=exchcorrw;
/*subject指定个体变量,重复测量数据中通常为个体的id编号;within指定重复测量的变量,通常是时间点变量;type指定作业相关矩阵;corrw指定输出作业相关矩阵*/
run;
表4显示了组别与时间的主效应,结果提示,两组之间Y值评分差异有统计学意义(P=0.002),治疗后第3周与治疗前差异有统计学意义(P=0.005),治疗后第4周与治疗前差异有统计学意义(P<0.001)。
主效应是基于所有人(即不分组)的结果,因此,表4结果对应于上一篇文章重复测量方差分析表3结果中的总体比较(尽管结果并不完全一致,这很正常)。
参数估计值显示了差异情况,例如,group的参数估计值显示组间差异为7.8,即试验组的均值(114.6)与对照组的均值(106.8)相比高7.8;time1vs0的参数估计值显示组间差异为1.4,提示第1周均值(108.9)比治疗前均值(107.5)高1.4。
其余time2vs0等的解释以此类推。
如果分析中不加入时间与组别的交互项,相当于假定两条线是平行的,然而实际中这一假定并不一定满足。
图1可以看出两条线可能不平行(虽然上一篇文章的重复测量方差分析并不认为两条线不平行,但对于数据分析来说,我们一开始并不知道,都是通过简单图示探索先得到一定认识,然后基于这种认识再深入分析),因此考虑在分析中纳入时间与组别的交互项,以便观察两组的变化趋势是否有差异。
加入交互项的SAS程序如下:
dataex2;
inputidgrouptimey;
cards;
……
;
procgeedata=ex2;
classidtime/param=referenceref=first;
modely=timegrouptime*group;
/*这里加入了交互项,以反映两条线是否平行*/
repeatedsubject=id/within=timetype=exchcorrw;
run;
表5显示了加入组别与时间交互效应的结果。
一旦加入交互效应,组别与时间点反映的不再是主效应,而是单独效应(这句话非常关键,一定要牢牢记住)。
因此,如果想了解组别与时间点的主效应,可以先不加入交互项。
单独效应反映的不是所有人的估计结果,而是某一亚组(如对照组的观测、第1周的观测等)的估计结果。
下面这段结果的解释非常重要,建议一定仔细看。
对于想了解交互效应如何解释的朋友,尤为重要。
这一段不仅是对广义估计方程的解释,也是对常见其它模型中存在分类变量交互项的解释。
单独效应的结果与变量赋值有很大关系,本例中试验组赋值为1,对照组赋值为0,时间点分别赋值为0~4。
因此,表5中group反映的不是所有人两组的差值,而是治疗前这一时间点的两组差值(4.2);同样,time1vs0反映的也不是所有人在第1周与治疗前的差值,而是对照组第1周与治疗前的差值(1.4)。
交互项的结果对应于重复测量方差分析表3结果中的分组比较。
例如,group*time(1vs0)的参数估计值为0,它反映了第1周两组差值(4.2)与治疗前两组差值(4.2)的差值,也可以说,反映了试验组第1周-治疗前的值(1.4)与对照组第1周-治疗前的值(1.4)的差值(仔细体会一下这两种说法),两种说法均可,取决于研究目的侧重说明什么。
其他交互项的解释含义以此类推。
(五)广义估计方程分析的注意事项
(1)尽管广义估计方程需要考虑作业相关矩阵的设置,但绝大多数情况下,结果是一致的。
建议实际分析中,首先可指定不同的作业相关矩阵,观察分析结果是否一致,如果一致,可以任选其一,否则可根据相关矩阵和QIC综合考虑,选择最合适的作业相关矩阵。
(2)广义估计方程的结果比重复测量方差分析更接近模型的形式,因此不少非统计学专业人员可能对结果的解读存在一定困难,尤其是加入交互项的结果解读,需要仔细体会,否则很容易出现结果的解释错误。
(3)广义估计方程比重复测量方差分析在分析思路上更为灵活,但这同时需要对统计学知识和软件操作的更高要求,因为广义估计方程的结果与自变量赋值有很大关系。
例如对时间点赋值0~4,与赋值为1~5,二者给的结果会有不同。
这一点其实在所有的模型类都是如此,分类资料的赋值很重要。
(4)广义估计方程对缺失值比重复测量方差分析更为耐受。
它是基于完全随机缺失的假设(关于随机缺失等概念参见以前文章,下一篇文章也会再次介绍),因此完全随机缺失模式对广义估计方程的结果影响不大,此时其参数估计值仍是稳定的,但如果是随机缺失,仍会影响广义估计方程的结果,这种情况下,可考虑加权的广义估计方程(WeightedGeneralizedEstimatingEquations),该法是基于随机缺失的假定,但仅限于失访模式(即一个人在某个时间点缺失后,后面的时间点均无数据)。
小白学统计
微信扫一扫赞赏作者赞赏
已喜欢,对作者说句悄悄话
取消
发送给作者
发送
最多40字,当前共字
人赞赏
上一页1/3下一页
长按二维码向我转账
受苹果公司新规定影响,微信iOS版的赞赏功能被关闭,可通过二维码转账支持公众号。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 重复 测量 数据 分析 结果 详解 广义 估计 方程