生存分析论文.docx
- 文档编号:4501203
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:20
- 大小:166.21KB
生存分析论文.docx
《生存分析论文.docx》由会员分享,可在线阅读,更多相关《生存分析论文.docx(20页珍藏版)》请在冰豆网上搜索。
生存分析论文
《生存分析论文》
题目:
基于非参数分析法
研究改进手术对患者生存时间的影响
专业:
班级:
姓名:
2015年6月25日
摘要
生存分析(survivalanalysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。
临床随访,又称为前瞻性研究(prospectivestudy),本文采用此方法进行两组肾移植的病人手术后的生存时间和结局的研究。
研究过程中主要面临的问题有:
(1)结局及生存时间据需要考虑—经典的统计分析方法不能同时分析结局和生存时间;
(2)随访研究中研究对象可能会失访或死于其他疾病;或因研究经费和时间的限制不可能等到所有的对象都出现结局---截尾(censoring)或终检。
生存分析能解决以上问题。
本文通过比较A组和B组两组实验数据来探究改进手术对患者生存时间的影响,通过最后结果可以看出,改进手术组会大大提高患者生存率,因此,今后医生应致力于手术改良,以多加提高患者的生存率。
关键词Kaplan-Meier估计Nelson-Aalen估计Cox模型SAS软件
一、估计原理
1.乘积极限法(Kaplan-Meier)
Kaplan-Meier分析方法,又称乘法极限估计、PL法或最大似然估计法,是由Kaplan和Meier在1958年提出的一种求生存函数的非参数方法。
寿命表分析适用于大样本情况,在处理小样本时,为充分利用每个数据所包含的信息,Kaplan-Meier分析便成为首选的分析工具。
乘积极限法(Kaplan-Meier)适用于离散数据,它用于建立时刻t上的生存函数。
Kaplan-Meier法是根据t时刻及其之前各时间点上的条件生存率的乘积,来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。
设
代表k个观察对象的生存时间,设
为
时刻开始之前生存的个体数目,即危险集的大小(i=1,2,…,k),再设
表示生存时间的截尾性质,i=1,2,…,k。
又令
表示观察对象在时刻
的条件生存率,即对于i=1,2,…,k,有:
,其中
那么,观察对象在时刻
时的条件死亡率如下:
对于i=1,2,…,k,Kaplan-Meier法定义时刻
上的生存函数和它的标准误的估计公式如下:
除了生存函数,均数和中位数也是反映一组生存时间平均水平常用的统计指标。
但由于生存资料多呈偏正态分布,因而更适宜选用中位数,包括百分位数等指标。
2.log-rank检验
Log-rank检验的渐进平均值E和方差V:
分别为实验组和对照组在第K时间间隔第i个病人死亡前生存的人数,
分别为实验组和对照组在第K时间间隔第i个病人死亡前的死亡危险率,
为第k个时间间隔的死亡人数。
设
,则
,
其中,
,
,
将log-rank统计量的分布视作N(E,1),有:
根据区间上两组概率分配向量中的治愈率,很容易求出所需总样本含量:
式中,
为试验组和对照组的事件发生率。
在随访研究中,样本含量除受统计学要求及治疗效果影响外,还有许多不确定性影响因素,例如患者入组、失访、治愈时间的分布,患者在试验阶段的依从性,以及是否满足比例风险等等。
Log-rank检验除考虑最后结局,还考虑了出现结局的时间,并充分利用失访资料所提供的不完全信息。
对于具体的试验,本法都能拟合一个独特的生存过程,较好反应实际情况,应用灵活,因此是一种有效、可行的样本含量估计方法,能更好适应临床试验的复杂性和多样性,巧妙解决多种复杂因素并存对样本含量的影响问题。
3.Nelson-Aalen估计
在有删失的情况下,可以根据累积死亡率与生存函数的关系
来估计累积死亡力函数H(t)。
这时估计式为:
。
另外有一个累积死亡力估计式,它与以乘积限估计式为基础的估计式相比,具有更好的小样本性质,这一估计式由Nelson建议,然后由Aalen重新发现并加以改进,这就是Nelson-Aalen估计式,即在最大的时间观察范围内的定义如下:
该估计式的方差可以从下式得到:
以累积死亡率的Nelson-Aalen估计式为基础,生存函数的另一个估计式为:
。
Nelson-Aalen估计式在分析数据时主要有以下两方面的应用,其一是在选择事件发生时间的参数模型方面的应用,其二是为死亡率h(t)提供粗估计,这些估计值是Nelson-Aalen估计式的斜率。
4.Cox模型
像通常的回归分析一样,人们也希望能建立起生存时间(因变量或反映变量)随危险因素(自变量或协变量)变化的回归过程,以便对危险因素的作用大小有一个全面的了解和掌握,并根据危险因素的不同取值对生存概率进行预测。
由于很难获得准确的生存时间,前述目的较难直接实现。
1972年Cox提出了比例危险模型,简称Cox模型。
由于此模型在表达形式上与参数模型相似,但在对模型中的各参数进行估计时却不依赖于特定的假设,所以又称为半参数模型。
设
是影响生存时间t的k个危险因素。
设
为i名受试者在时刻t的风险率,即t时刻外后一瞬间的死亡速率。
又设
表示不受危险因素x的影响下,在时刻t的风险率,又称为基准风险率或基准函数。
其模型的具体形式如下:
式中,
为第i名受试者生存到t时刻的危险率函数,
是当所有的危险因素(即
)不存在时的基础危险率函数,
是可能与生存时间有关的m个危险因素所构成的向量。
在SAS系统中,可以利用PHREG过程对生存数据进行回归分析,结局变量(因变量)为生存时间,可以处理有截尾数据的生存时间。
模型中的自变量可以是连续性、分类变量、时间依存的自变量。
可以对比例风险模型是否成立作出检验,利用最大似然法迭代求出模型的参数估计,对模型的参数作似然比、比分和Wald等检验。
PHREG过程的语法格式如下:
PROCPHREGDATA=[选项];
MODEL<生存时间变量*截尾指示变量(数值)>=<自变量名>/[选项];
STRATA<分组变量名列>;
FREQ<变量名列>;
BY<变量名列>;
RUN;
二、实例
背景:
某医院泌尿外科于1979-1982年做了19例肾移植手术,拟了解肾移植后病人的生存时间(天)。
规定对方开始时间为病人术后一天,死亡事件为改病人因与肾移植有关的各种原因而死亡。
后改进手术方式,于1983-1986年又作了14例,该资料如下(有+的数据表示该病人截尾)。
数据:
一般手术组(A组)
改进手术组(B组)
3
10
9
70+
15
70+
20
120
20
225
26
366
30
390+
41
475+
46
518+
64
647+
64
801+
135
1001+
226
1045+
365
1045+
450
596+
680+
900+
900+
三、SAS程序以及运行结果及分析
1、Kaplan-Meier和Nelson-Aalen
程序:
datafujy;/*定义数据集*/
inputt@@;
ift<0thencensor=1;
elsecensor=0;/*如果时间小于0,为删失变量赋值为1,否则赋值为0*/
if_n_<20thengroup='A';
elsegroup='B';/*前二十个数据为A组,剩下的为B组*/
t=abs(t);/*t的标准化*/
cards;
39152020263041466464135226365450-596-680-900-90010-70-70120225366-390-475-518-647-801-1001-1045-1045
;
proclifetestmethod=plnelsonplots=(s,ls,lls);
/*利用lifetest过程进行生存分析并作生存函数图,pl为Kaplan-Meier,nelson为Nelson-Aalen*/
timet*censor
(1);/*制定时间变量和删失变量,指出删失变量时删失变量的取值*/
stratagroup;/*指定分组变量*/
run;
运行结果:
以下是Kaplan-Meier法和Nelson-Aalen法对A组生存资料进行统计描述的结果。
SAS系统
LIFETEST过程
层1:
group=A
生存函数和累积危险率
t
乘积极限
Nelson-Aalen
失效
数
剩余
数
生存
失效
生存标准误差
累积
危险
累积危险
标准
误差
0.00
1.0000
0
0
0
.
0
19
3.00
0.9474
0.0526
0.0512
0.0526
0.0526
1
18
9.00
0.8947
0.1053
0.0704
0.1082
0.0765
2
17
15.00
0.8421
0.1579
0.0837
0.1670
0.0965
3
16
20.00
.
.
.
.
.
4
15
20.00
0.7368
0.2632
0.1010
0.2920
0.1309
5
14
26.00
0.6842
0.3158
0.1066
0.3634
0.1491
6
13
30.00
0.6316
0.3684
0.1107
0.4404
0.1678
7
12
41.00
0.5789
0.4211
0.1133
0.5237
0.1873
8
11
46.00
0.5263
0.4737
0.1145
0.6146
0.2082
9
10
64.00
.
.
.
.
.
10
9
64.00
0.4211
0.5789
0.1133
0.8146
0.2517
11
8
135.00
0.3684
0.6316
0.1107
0.9396
0.2810
12
7
226.00
0.3158
0.6842
0.1066
1.0825
0.3153
13
6
365.00
0.2632
0.7368
0.1010
1.2491
0.3566
14
5
450.00
0.2105
0.7895
0.0935
1.4491
0.4089
15
4
596.00
*
.
.
.
.
.
15
3
680.00
*
.
.
.
.
.
15
2
900.00
*
.
.
.
.
.
15
1
900.00
*
0.2105
0.7895
.
.
.
15
0
第一列至第八列分别是生存时间、累积生存率、死亡概率、累计生存率标准误、累积危险率、累积危险标准误差、已观测到的失效时间的例数、尚未观测到的失效或截尾例数。
有*号者表示截尾观测值。
Note:
Themarkedsurvivaltimesarecensoredobservations.
时间变量“t”的汇总统计量
四分位数估计
百分比
点
估计
95%置信区间
变换
[下限
上限)
75
450.00
LOGLOG
64.00
.
50
64.00
LOGLOG
20.00
365.00
25
20.00
LOGLOG
3.00
46.00
均值
标准
误差
174.42
43.98
Note:
Themeansurvivaltimeanditsstandarderrorwereunderestimatedbecausethelargestobservationwascensoredandtheestimationwasrestrictedtothelargesteventtime.
最后给出生存时间四分位数、点估计及95%可信区间,生存时间均数及其标准误。
结果表示,A组患者的中位生存期为64天,平均生存期为174.42天。
以下是Kaplan-Meier法和Nelson-Aalen法对B组生存资料进行统计描述的结果。
SAS系统
LIFETEST过程
层2:
group=B
生存函数和累积危险率
t
乘积极限
Nelson-Aalen
失效
数
剩余
数
生存
失效
生存标准误差
累积
危险
累积危险
标准
误差
0.00
1.0000
0
0
0
.
0
14
10.00
0.9286
0.0714
0.0688
0.0714
0.0714
1
13
70.00
*
.
.
.
.
.
1
12
70.00
*
.
.
.
.
.
1
11
120.00
0.8442
0.1558
0.1019
0.1623
0.1156
2
10
225.00
0.7597
0.2403
0.1218
0.2623
0.1529
3
9
366.00
0.6753
0.3247
0.1344
0.3734
0.1890
4
8
390.00
*
.
.
.
.
.
4
7
475.00
*
.
.
.
.
.
4
6
518.00
*
.
.
.
.
.
4
5
647.00
*
.
.
.
.
.
4
4
801.00
*
.
.
.
.
.
4
3
1001.00
*
.
.
.
.
.
4
2
1045.00
*
.
.
.
.
.
4
1
1045.00
*
0.6753
0.3247
.
.
.
4
0
Note:
Themarkedsurvivaltimesarecensoredobservations.
时间变量“t”的汇总统计量
四分位数估计
百分比
点
估计
95%置信区间
变换
[下限
上限)
75
.
LOGLOG
.
.
50
.
LOGLOG
225.00
.
25
366.00
LOGLOG
10.00
.
均值
标准
误差
307.90
35.84
Note:
Themeansurvivaltimeanditsstandarderrorwereunderestimatedbecausethelargestobservationwascensoredandtheestimationwasrestrictedtothelargesteventtime.
内容同上,平均生存期为307.9天。
删失值和未删失值个数汇总
层
group
合计
失败
删失
删失
百分比
1
A
19
15
4
21.05
2
B
14
4
10
71.43
合计
33
19
14
42.42
为两者患者总人数、死亡数、截尾数和截尾百分比。
以下是Kaplan-Meier法作出的生存函数图:
为两组患者的生存分布函数曲线。
两条曲线在开始时重叠,A组在900天终止,B组在1005天终止。
A组生存率下降显著高于B组,说明B组比A组生存时间长。
是-LogS(t)对生存时间T的散点图,呈非直线趋势,说明生存时间不呈指数分布。
是Log(-LogS(t))对LogT的散点图,两条线分别近似直线,说明生存时间近似呈Weibull分布。
以下是Nelson-Aalen法作出的生存函数图:
A组累积危险率函数
B组累积危险率函数
SAS系统
LIFETEST过程
检验t在层之间的生存曲线的齐性
秩统计量
group
对数秩
Wilcoxon
A
5.9283
143.00
B
-5.9283
-143.00
对数秩统计量的协方差矩阵
group
A
B
A
4.61886
-4.61886
B
-4.61886
4.61886
Wilcoxon统计量的协方差矩阵
group
A
B
A
2711.32
-2711.32
B
-2711.32
2711.32
层间等效检验
检验
卡方
自由度
Pr>
卡方
对数秩
7.6088
1
0.0058
Wilcoxon
7.5421
1
0.0060
-2Log(LR)
11.7986
1
0.0006
是各组生存函数曲线齐性检验。
依次给出秩次统计量、Logrank统计量的协方差矩阵、Wilcoxon统计量的协方差矩阵、各组生存函数一致性检验结果等。
总结论:
结果表明此资料不服从指数分布,近似服从Weibull分布,故宜选用logrank法的结果,两条生存曲线分布有显著性差异(p<0.05)。
B组患者的生存时间显著长于A组患者。
2.Cox模型
程序:
datafujy;/*定义数据集*/
inputgroupday;
censor=(day<0);/*时间小于0的值赋给删失变量*/
days=abs(day);/*把变量标准化*/
cards;
13
19
115
120
120
126
130
141
146
164
164
1135
1226
1365
1450
1-596
1-680
1-900
1-900
210
2-70
2-70
2120
2225
2366
2-390
2-475
2-518
2-647
2-801
2-1001
2-1045
2-1045
;
procphregdata=fujy;/*利用PHREG过程做Cox模型*/
modeldays*censor
(1)=group;
/*建立生存时间days,截尾指示变量为censor的COX模型,censor取0时表示删失*/
run;
运行结果:
为输入数据信息。
从这里可以看出截尾事件和终点时间。
本例截尾数据14例。
为模型的检验结果,从结果可以看出,模型较好的拟合了研究数据,有统计学意义(p<0.05)。
为参数检验结果以及几个描述统计量。
输出结果包括参数估计值、标准误、Wald值、p值、相对危险比。
变量group在统计学上有显著性差异(p=0.0113)。
HR=0.238,可以认为改进手术后的死亡概率是改进手术前的死亡概率的0.238倍。
根据参数估计值,可写出一下Cox回归方程:
四、联系现实,结果分析
两次检验结果表明:
改进手术后的患者组(B组)的生存率大于改进手术前的患者组(A组),可以认为改进后的死亡概率是改进前的死亡概率的0.238倍。
说明改进后的手术确实可以提高病人的生存率,今后要多加改良手术,以提高患者的生存率。
而作为本次试验来说,也有不足之处。
一是时间太短,导致B组有大量右删失数据,使得结果不很准确。
二是样本太小,很可能不能代表试验结果,应该加大样本量,才能保证结果更加真实、准确。
参考文献
[1]LevinRC,KlevorickAK,NelsonRR,WinterSG.Ap—PropriatingthereturnsfromindustrialR&D[J].BrookingsPapersonEconomicActivity,1987,783—820.
[2]XieY,GilesDE.AsurvivalanalysisoftheapprovalofUSpatent
applications[R].EconometricsWorkingPa-perEWP0707.2007.18—19.
[3]傅家骥.技术创新学[M].北京:
清华大学出版社,2000.1—37.
[4]G—IichesZ.Patentstatisticsaseconomicindicators:
asurvey[J].Journal
ofEconomicLiterature,1990,28:
1661—1707.
[5]SchankermanM,PakesA.EstimatesofthevalueofpatentrightsinEuropean
countriesduringthepost一1950pefiod[J].EconomicJournal,1986,96:
1052
—1076.
[6]PakesA.Patentsa8options:
someestimatesofthevalueofholdingEuropean
patentstocks[J].Econometriea,1986,54:
755—784.
[7]付晔,马强,盛佩珍.高校专利有效性的现状分析[J].科学学与科学技术管理,2009,(8):
45—49.
[8]杨中楷,孙玉涛.基于专利持有模型的我国有效专利分析[J].科技管理研究,2009,
(2):
254-257,
[9]乔永忠.基于专利情报视角的专利维持时I.日J影响因素分析[J].情报研究,2009,
(2):
42-45.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生存 分析 论文