生存分析censored data蒋磊磊.docx
- 文档编号:7409544
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:17
- 大小:333.36KB
生存分析censored data蒋磊磊.docx
《生存分析censored data蒋磊磊.docx》由会员分享,可在线阅读,更多相关《生存分析censored data蒋磊磊.docx(17页珍藏版)》请在冰豆网上搜索。
生存分析censoreddata蒋磊磊
肺癌患者病情及生存率等问题的分析
(蒋磊磊,北京师范大学,数学科学学院,北京,100875)
一:
实验内容及数据来源
本次实验的数据使用的是137位肺癌病情的治疗数据,变量id是患者编号;therapy是治疗方案,1表示标准方法,2表示试验方法;cell是肺癌细胞组织学分类,1表示磷癌,2表示小细胞肺癌,3表示腺癌,4表示大细胞癌;time是生存时间;status是病人状态,0表示死亡,1表示缺失数据;kps是判断标准,小于30表示的是住院治疗,30到60之间表示住院和家庭结合治疗,大于60表示家庭治疗;diagtime是诊断到治疗时间;age是年龄;prior是治疗前的处理状态,0表示经过处理,1表示未经处理.数据如下
二:
生存率估计
生存率估计方法有参数法和非参数法两类.参数法是根据专业知识和实际问题本身的特性或应用一定的统计手段选择特定的生存时间分布形式(如前面提到的指数分布、Weibull分布、对数正态分布等)拟合实际资料,求得特定分布中的参数,以此来描述生存和死亡规律.这种方法计算较为复杂.大量资料是采用非参数估计.如乘积限和寿命表法由于是没有分组,所以本题采用KM也叫做乘积限法非参数法对肺癌患者进行医学研究.根据样本含量的大小可分别选择寿命表法或乘积限估计法.
图1
从图1中可以看出中位肺癌的生存期处于80个月.它的标准差为15.721.
图2
图2可以看出,随着时间的推移,肺癌患者的生存率越来越低.肺癌患者从刚开始生存率逐渐下降,知道400个月是下降趋势减缓.随着有可能死亡.
图3
图3为1减去累计生存函数后的后的生存率.和图3正好相反
图4
通过对数生存函数更能直观地看出肺癌患者下降趋势的陡峭程度.
图5
通过图5,我们可以清楚地看出,随着时间的推移,肺癌患者的累积危险越来越高,随时有死亡的风险,在刚开始的时间,呈直线上升趋势,但是一定时间后,我们可以发现上升趋势缓慢.这是由于等到了肺癌晚后期,生存率几乎为0了,所以此刻生息率非常高了.上升的幅度不大了.
三:
对数秩和检验
之前我们已经讨论了生存率的大体情况.但是此时有两种不同的治疗方案.一种是标准方法治疗,一种是试验方法治疗.作为医生,肯定要考察这两种方法在临床肺癌治疗上是否有显著性.于是,我们采用对数秩和检验.当然这里还有其他方法来检验两者的显著性.
图6
图6给出了两者的均值估计以及中位数估计.
图7
图7的结果显示通过对数秩和检验发现,利用标准疗法以及试验疗法在肺癌的生存率并不显著.也就是希望医生能够对试验疗法进行改进.
图8
从图8看出来,从开始到最后的时间当中两者的差异并不明显.尤其在0到20这个区间内累计生存率基本一样.到之后发现标准比试验对肺癌患者的生存率有显著增加.但是在交点之后,试验方法的生存率高于标准方法的累计生存率.
图9
图9清晰地看出两者忽高忽低.不能说两种方法孰优孰劣.只能说在不同时间,有不同的优势.
图10
图10给出的是1减去累计生存函数.
图11
生息率的高低可以从图11看出.在200之前,试验方法的生息率高于标准方法的生息率.但是当高于200之后,两者反过来了.标准方法的生息率说明在最后肺癌患者随时都有死亡的风险.
三.COX回归模型
在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分,除了有一个基本的风险量
外,第i个影响因素使得该风险量从
增至
倍而成为
,如果在k个因素同时影响生存过程的情况下,在时点t的风险量(也称为风险率或者风险函数)就为:
所以比例风险模型的基本结构如下:
将基础风险以至公式左侧,两边同取对数,得到:
从上式可见
的实际含义是:
当变量X改变一个单位时,引起的死亡风险改变倍数的自然对数值.这就是风险比例模型,也成为Cox回归模型.
图12
图13
图14
图15
图16
图17
图18是对观测量处理的说明,即读入观测量总数、带有缺失值的观测量、带有负生存时间变量的观测量、在分层中缺失观测量、去除的观测量总数、用于统计分析的观测量.图19是对个变量值进行编码分类,cell为分类变量,以该变量中的第一分类(即squamous)作为参照分类对比,
(1)代表small分类,
(2)代表adeno分类,(3)代表large分类.
图18
图19
图20和图21给出了模型系数的检验结果,图20给出了原始的对数似然值1011.768,对于图21,其中因变量为time,128个未剔除观测量,9个剔除观测量,使用向后消去回归和沃德检验,显示每步的变化和每步协变量组的变化.第一步进入模型的变量,第二步cell变量进入模型,没有其他变量进入或剔除模型,这时对数似然值为950.359,总体记分检验为65.917,与上协变量组的对数似然值之差为61.409(=1011.768-950.359).
图20
图21
图12给出了进入模型协变量的统计量,从左至右分别为:
变量名、回归系数、回归系数标准误、Wald统计量、自由度、显著性水平、相关系数、相对危险度.图13给出了未进入模型变量的统计量,残差卡方值为2.675,自由度为4,显著性水平0.614.图14给出了所以协变量的平均值.
图22
图23
图24
从以上结果看,‘kps’和‘cell’变量具有显著性意义,‘kps’变量相对危险度为0.969,回归系数为-0.0309,说明‘kps’变量取值越大,生存时间越长.在‘cell’变量中,adeno和small分类与squamous相比具有显著性差异,而large与squamous相比不具有显著性差异.Adeno的回归系数为1.1508,相对危险度为3.1607:
;small回归系数为0.712,相对危险度为2.0384;large回归系数为0.3251,相对危险度为1.3842..所以鳞癌细胞肺癌患者生存时间最长,其次是大细胞肺癌患者,再次是小细胞肺癌患者,腺癌细胞肺癌患者生存时间最短.
图25
图26
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生存分析censored data蒋磊磊 生存 分析 censored data 磊磊