第十四章生存分析的SAS实现.docx
- 文档编号:6509961
- 上传时间:2023-01-07
- 格式:DOCX
- 页数:17
- 大小:100.77KB
第十四章生存分析的SAS实现.docx
《第十四章生存分析的SAS实现.docx》由会员分享,可在线阅读,更多相关《第十四章生存分析的SAS实现.docx(17页珍藏版)》请在冰豆网上搜索。
第十四章生存分析的SAS实现
第十四章生存分析的SAS实现
例14-2McKelveyetal(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。
分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。
SAS分析程序
datach14_2;定义数据集名
inputtc@@;输入生存时间变量t和截尾情况变量c
cards;开始输入数据
611913214214214309411260169020712110
22702531255027003100316033503460
;
proclifetestplots=(s);利用lifetest过程进行生存分析并作生存函数图
timet*c(0);指定时间变量和截尾变量并指出数据截尾时截尾变量的取值
run;
SAS软件输出结果
Product-LimitSurvivalEstimates
Survival
StandardNumberNumber
tSurvivalFailureErrorFailedLeft
0.0001.000000019
6.0000.94740.05260.0512118
19.0000.89470.10530.0704217
32.0000.84210.15790.0837316
42.000...415
42.0000.73680.26320.1010514
43.000*...513
94.0000.68020.31980.1080612
126.000*...611
169.000*...610
207.0000.61210.38790.116779
211.000*...78
227.000*...77
253.0000.52470.47530.128786
255.000*...85
270.000*...84
310.000*...83
316.000*...82
335.000*...81
346.000*...80
NOTE:
Themarkedsurvivaltimesarecensoredobservations.
SummaryStatisticsforTimeVariablet
QuartileEstimates
Point95%ConfidenceInterval
PercentEstimate[LowerUpper)
75...
50.94.000.
2542.00032.000.
MeanStandardError
181.70124.497
NOTE:
Themeansurvivaltimeanditsstandarderrorwereunderestimatedbecausethelargest
observationwascensoredandtheestimationwasrestrictedtothelargesteventtime
SummaryoftheNumberofCensoredandUncensoredValues
Percent
TotalFailedCensoredCensored
1981157.89
SAS软件输出结果解释
该结果包含四个部分:
第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(SurvivalStandardError),死亡例数(NumberFailed)和该时间点前的生存例数(NumberLeft)。
其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95%ConfidenceInterval),还有均数(Mean)和标准误(StandardError)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(PercentCensored)。
最后是生存曲线图。
教材中的说明
现用Kaplan-Meier法计算生存率,步骤如下:
(1)将所有生存时间按从小到大顺序排列(见表14-2第
(2)列)并标上序号(第
(1)列)。
(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d(第(4)列)和截尾人数c(第(5)列)。
(3)计算各t时刻的死亡概率
(第(6)列)。
例如生存时间为32天时,死亡概率为
。
(4)计算各t时刻的生存概率
(第(7)列)。
例如生存时间为32天时,生存概率为
。
(5)计算各t时刻的生存率
(第(8)列)。
例如生存时间为32天时,生存率为
,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。
(6)以时间t为横指标,生存率为纵指标,作生存曲线图(图14-1)。
表14-2Kaplan-Meier法计算生存率的计算用表
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
序号
生存
天数
t时刻前
的例数n
t时刻
死亡数d
t时刻后
截尾人数c
死亡
概率q
生存
概率p
生存率
S(t)
1
6
19
1
0
0.052632
0.947368
0.947368
2
19
18
1
0
0.055556
0.944444
0.894737
3
32
17
1
0
0.058824
0.941176
0.842105
4
42
16
2
0
0.125000
0.875000
0.736842
6
43
14
0
1
0.000000
1.000000
0.736842
7
94
13
1
0
0.076923
0.923077
0.680162
8
126
12
0
1
0.000000
1.000000
0.680162
9
169
11
0
1
0.000000
1.000000
0.680162
10
207
10
1
0
0.100000
0.900000
0.612146
11
211
9
0
1
0.000000
1.000000
0.612146
12
227
8
0
1
0.000000
1.000000
0.612146
13
253
7
1
0
0.142857
0.857143
0.524696
14
255
6
0
1
0.000000
1.000000
0.524696
15
270
5
0
1
0.000000
1.000000
0.524696
16
310
4
0
1
0.000000
1.000000
0.524696
17
316
3
0
1
0.000000
1.000000
0.524696
18
335
2
0
1
0.000000
1.000000
0.524696
19
346
1
0
1
0.000000
1.000000
0.524696
图14-1例14-2的生存曲线图
例14-3下面是来自于Berkson&Gage(1950)的一个研究队列。
为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。
共有374名患者进入研究队列。
表14-3寿命表法计算生存率的计算用表
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
序号
术后生存
年数
期初观察
例数
期内
死亡
期内截尾
人数
校正期初
人数
死亡
概率
生存
概率
生存率
t
n
d
c
nc=n-c/2
q=d/nc
p=1-q
S(t)
1
0~
374
90
0
374
0.2406
0.7594
0.7594
2
1~
284
76
0
284
0.2676
0.7324
0.5561
3
2~
208
51
0
208
0.2452
0.7548
0.4198
4
3~
157
25
12
151
0.1656
0.8344
0.3503
5
4~
120
20
5
117.5
0.1702
0.8298
0.2907
6
5~
95
7
9
90.5
0.0773
0.9227
0.2682
7
6~
79
4
9
74.5
0.0537
0.9463
0.2538
8
7~
66
1
3
64.5
0.0155
0.9845
0.2498
9
8~
62
3
5
59.5
0.0504
0.9496
0.2372
10
9~
54
2
5
51.5
0.0388
0.9612
0.2280
11
10+
47
21
26
34
0.6176
0.3824
0.0872
SAS分析程序
datach14_3;定义数据集名
doc=0to1;定义截尾变量
doi=1to11;
inputtf@@;输入时间变量和频数变量
output;
end;
end;
cards;
09017625132542057647183921021
0010203124559697385951026
;
proclifetestdata=ch14_3利用lifetest过程进行生存分析
method=lifewidth=1plots=(s);采用寿命表法并作生存函数图
timet*c
(1);指定时间变量和截尾变量并指出数据截尾时截尾变量的取值
freqf;指定频数变量
run;
SAS软件输出结果
TheLIFETESTProcedure
LifeTableSurvivalEstimates
Conditional
EffectiveConditionalProbability
IntervalNumberNumberSampleProbabilityStandard
[Lower,Upper)FailedCensoredSizeofFailureErrorSurvivalFailure
01900374.00.24060.02211.00000
12760284.00.26760.02630.75940.2406
23510208.00.24520.02980.55610.4439
342512151.00.16560.03020.41980.5802
45205117.50.17020.03470.35030.6497
567990.50.07730.02810.29070.7093
674974.50.05370.02610.26820.7318
781364.50.01550.01540.25380.7462
893559.50.05040.02840.24980.7502
9102551.50.03880.02690.23720.7628
10.212634.00.61760.08330.22800.7720
EvaluatedattheMidpointoftheInterval
SurvivalMedianMedianPDFHazard
IntervalStandardResidualStandardStandardStandard
[Lower,Upper)ErrorLifetimeErrorPDFErrorHazardError
0102.41180.18960.24060.02210.2735560.028564
120.02212.57710.32420.20320.02080.3089430.035013
230.02573.55990.85760.13640.01770.2794520.038747
340.0255..0.06950.01340.1805050.035954
450.0248..0.05960.01290.1860470.041421
560.0239..0.02250.008370.080460.030386
670.0235..0.01440.007120.0551720.027576
780.0233..0.003930.003920.0156250.015625
890.0233..0.01260.007180.0517240.029853
9100.0232..0.009210.006450.0396040.027999
10.0.0232......
SummaryoftheNumberofCensoredandUncensoredValues
Percent
TotalFailedCensoredCensored
3743007419.79
NOTE:
Therewere3observationswithmissingvalues,negativetimevaluesorfrequencyvalues
lessthan1.
SAS软件输出结果解释
本例结果主要包含三个部分:
第一部分给出了时间区间的下限和上限,死亡例数(NumberFailed),截尾例数(NumberCensored),期初观察人数(EffectiveSampleSize),生存率(Survival),死亡率(Failure),生存率的标准误(SurvivalStandardError)等;第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(PercentCensored)。
最后是生存曲线图。
教材中的说明
根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。
图14-2例14-3的生存曲线图
生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。
对于上述两种生存率计算方法均可以用Greenwood(1926)提出方法计算标准误
(14-6)
例如3~4年这一段的生存率的标准误为:
Kalbfleisch&Prentice,1980提出对生存率进行
转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:
,其中
(14-7)
例如对于3~4年这一组段的95%可信区间计算为
,则95%可信区间为
。
两种方法的比较:
①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。
②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。
③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。
当样本量较大及死亡时点较多时,阶梯形就不明显了。
例14-4在例14-3中介绍了McKelveyetal收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:
4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。
要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。
SAS分析程序
datach14_4;定义数据集名
doc=1to2;定义分组变量
inputn;输入每组观察次数
doi=1ton;
inputtimecensor@@;输入时间变量和截尾变量
output;
end;
end;
cards;
19
61191321421421
43094112601690
2071211022702531
2550270031003160
33503460
61
4161101111111
111131171201201
211221241241291
301301311331341
351391401410430
451461501561610
610631681821851
8818919019311041
1101134113711600
1691171117311751
1841201122212350
2470260028402900
29103020304034103450
;
proclifetestplots=(s);利用lifetest过程进行生存分析
timetime*censor(0);指定时间变量和截尾变量
stratac;指定分层变量
run;
SAS软件输出结果解释
TheLIFETESTProcedure
TestingHomogeneityofSurvivalCurvesfortimeoverStrata
RankStatistics
cLog-RankWilcoxon
1-8.6870-396.00
28.6870396.00
CovarianceMatrixfortheLog-RankStatistics
c12
111.2471-11.2471
2-11.247111.2471
CovarianceMatrixfortheWilcoxonStatistics
c12
130749.5-30749.5
2-30749.530749.5
TestofEqualityoverStrata
Pr>
TestChi-SquareDFChi-Square
Log-Rank6.709710.0096
Wilcoxon5.099810.0239
-2Log(LR)10.173510.0014
SAS软件输出结果解释
这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。
由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的
统计量为6.7097,p值=0.0096,所以在=0.05水准上,拒绝H0,接受H1。
,可认为两个(c=1,2)总体生存率之间存在差异。
图形为两个样本的生存曲线图。
教材中的说明
由于检验统计量
P<0.05,所以在=0.05水准上,拒绝H0,接受H1。
基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。
图14-53期和4期淋巴瘤的病人生存曲线
Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:
Logrank检验的检验效能仅与发生失效事件的人数有关。
另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。
例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。
收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。
表14-6204名晚期胰腺癌患者的生存资料(生存时间的单位为天)
保守
治疗组
生存时间
2
3
5
8
10
13
14
15
21
35
40
45
55
61
75
死亡人数
1
4
3
6
0
4
4
0
4
12
6
8
4
4
0
失访人数
0
0
0
2
3
0
0
1
0
0
2
8
0
0
4
手术
治疗组
生存时间
2
3
5
6
7
8
10
12
13
15
46
63
65
67
75
死亡人数
11
24
9
4
4
4
4
1
4
3
4
8
8
8
4
失访人数
0
0
0
0
0
0
1
3
0
0
0
0
8
0
12
SAS分析程序
datach14_5;定义数据集名
dog=1to2;定义分层变量
inputn;输入每层观察次数
doc=0to1;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四 生存 分析 SAS 实现
![提示](https://static.bdocx.com/images/bang_tan.gif)