随访资料的生存分析.docx
- 文档编号:1355689
- 上传时间:2022-10-21
- 格式:DOCX
- 页数:18
- 大小:213.49KB
随访资料的生存分析.docx
《随访资料的生存分析.docx》由会员分享,可在线阅读,更多相关《随访资料的生存分析.docx(18页珍藏版)》请在冰豆网上搜索。
随访资料的生存分析
第十五章 生存分析
第一节生存资料的特点
前面有关章节介绍了多种定量资料和定性资料的统计分析方法。
下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。
某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。
试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。
化疗组 1,2,3,5,6,9+,11,13,16,26,37+
放化疗联合组 10,11+,14,18,22,22,26,32,38,40+,42+
该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。
临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。
显然,结局为“生存”且存活时间越长,其疗效就越好。
反之,结局为“死亡”且存活时间越短,其疗效就越差。
结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。
从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。
但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。
退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。
因此,不宜采用t检验或方差分析。
秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,该资料也不适宜采用秩和检验。
那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?
如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:
化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。
由于样本含量小(),可采用四格表资料确切概率法进行统计分析。
但这种处理有失妥当:
一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。
更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。
综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。
那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?
在医学科学研究中,与之相类似的资料还有很多。
在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。
如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。
这类资料在统计学上被称为生存资料(survivaldata),概括起来具有以下几个共同特点:
①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、检验、四格表资料确切概率法或秩和检验进行分析。
分析生存资料的统计方法称为生存分析(survivalanalysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。
生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。
随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。
本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。
第二节生存分析的基本内容及几个基本概念
一、生存分析的基本内容
1.描述生存过程:
研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。
例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。
常用方法有乘积极限法和寿命表法。
2.比较生存过程:
获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。
例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。
常用方法有对数秩检验。
3.生存过程的影响因素分析:
例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。
常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。
二、生存分析中的几个基本概念
1.死亡事件(deathevent)又称失效事件(failureevent)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。
一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。
2.生存时间(survivaltime)指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。
如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。
表15.16例乳腺癌患者手术后的随访记录
患者
编号
观察记录
生存天数
t
开始日期
终止日期
结局
(死=1,生=0)
原因
1
2002-09-03
2002-12-29
0
死于肺癌
117+
2
2002-09-10
2002-12-08
1
转移死亡
89
3
2002-09-14
2002-12-31
0
研究终止
108+
4
2002-08-25
2002-11-29
0
失访
96+
5
2002-10-01
2002-11-28
0
死于车祸
58+
6
2002-10-04
2002-12-28
1
复发死亡
85
一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。
但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。
生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。
生存时间根据其不同的特点,可分为以下两种类型:
(1)完全数据(completedata):
指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。
(2)截尾数据(censoreddata):
简称截尾值(censoredvalue),又称删失值或终检值。
生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。
截尾的主要原因有以下三种:
①失访(withdrawal):
指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:
指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:
指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。
从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1,3,4,5号患者的生存天数分别记录为117+,108+,96+,58+。
完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。
因此,截尾数据太多会影响生存分析的效果。
3.死亡概率与生存概率
(1)死亡概率(mortalityprobability):
记为,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。
年死亡概率的计算公式为:
(15.1)
若年内有截尾,则分母用校正人口数:
(15.2)
(2)生存概率(survivalprobability):
记为,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。
某年生存概率的计算公式为:
(15.3)
分子即年底尚存人数,若年内有截尾,则分母用校正人口数。
4.生存率与生存曲线
(1)生存率(survivalrate):
记为,是指观察对象活过tk时刻的概率。
生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。
如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。
若无截尾数据,则
(15.4)
式中T为观察对象的存活时间。
但如果含有截尾数据,分母就必须分时段校正,故上式一般不能直接使用,大多采用概率乘法原理估计生存率。
假定观察对象在各个时段的生存事件独立,生存概率分别为,则根据概率乘法原理得到生存率的估计公式为:
(15.5)
从式(15.5)可知,实质上是累积生存概率(cumulativeprobabilityofsurvival)。
例如,3年生存率等于第一年、第二年和第三年生存概率的连乘积,是第一年存活,第二年也存活,第三年仍然存活的累积结果。
但习惯上仍根据式(15.4)的定义称之为生存率。
(2)生存曲线(survivalcurve):
是指将各个时点的生存率在坐标轴上连接在一起的曲线图,用以描述生存过程。
5.中位生存时间(mediansurvivaltime)又称半数生存期,是指生存率为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 随访 资料 生存 分析