生存分析概念Word文档下载推荐.docx
- 文档编号:17358993
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:25
- 大小:71.01KB
生存分析概念Word文档下载推荐.docx
《生存分析概念Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《生存分析概念Word文档下载推荐.docx(25页珍藏版)》请在冰豆网上搜索。
首先要求观察的生存时间
t
服从某一特定的分布,采用估计分布中参数的
方法获得生存率的估计值。
生存时间的分布可能为指数分布、Weibull
分布、对数正态分布
等,这些分布曲线都有相应的生存率函数形式。
只需求得相应参数的估计值,即可获得生
存率的估计值和生存曲线。
2、非参数方法:
实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数
法进行分析,应当用非参数法。
这类方法的检验假设与以往所学的非参数法一样,假设两
组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何。
非参数法是随
访资料的常用分析方法。
3、半参数方法:
只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)
的分布情况加以限定。
这种方法主要用于分析生存率的影响因素,属多因素分析方法,其
典型方法是
比例风险模型。
4、几种常用的统计软件:
SAS,SPSS,Stata,Excel,R
第二章
数据类型
一、完全数据(Complete
data)
每个个体确切的生产时间都是知道的。
这样的数据称为完全数据(Complete
data)。
但在实
际的生存分析中,数据在很多情况下是很难完全观察到的。
二、删失(Censoring
)
09
统计学【经济分析】2
班
吕嘉琦
320091213041
生存数据一个重要的特点是:
在研究结束时,无法获得某些个体确切的生存时间。
例如:
失去联系(病人搬走,电话号码改变),无法观察到结局(死于其他原因),研究截止,个
体仍然存活……在这些情况下获得的数据就是删失数据(Censored
对存在删失的个
体,只知道删失时间(Censoring
time)。
删失分为右删失(Rightcensoring)、左删失(Leftcensoring)和区间删失(Interval
censoring)
1、右删失(Right
censoring)。
在进行观察或调查时,一个个体的确切生存时间不知道,而只知道其生存时间大于时间
L,则称该个体的生存时间在
L
上是右删失的,并称
为右删失数据(Right-censored
右删失有三种类型(按结束时间差别):
I
型删失(TypeIcensoring)、II
型删失(TypeII
censoring)和
III
型删失(Type
(1)I
censoring):
对所有个体的观察停止在一个固定的时间,这种删失
即为
型删失(或定时删失)。
动物研究通常是以有固定数目的动物接受一种或多种
处理开始,由于时间和费用的限制,研究者常常不能等到所有动物死亡。
一种选择就是在
一个固定时间周期内观察,在截止时间之后仍可能有些动物活着,但不继续观察了。
这些
动物的生存时间是不知道的,只知其不小于研究周期时间。
型删失的删失时间是固定的。
图表
1
型删失示例
(2)II
II
同时对
n
个个体进行观察,一直到有一固定数目(r
<
n)的个体死亡(失效)为止,这种删失即为
型删失。
型删失的删失时间是随机的。
320091213042
2
(3)III
所有个体在不同时间进入研究,某些个体在研究结
束之前死亡,他们的确切生存时间是知道的,其他个体在研究结束之前退出研究而不被跟
踪观察或在研究结束时仍然活着。
进入研究的时间可能不同,删失时间也可能不同,这种
删失叫做
型删失,又称为随机删失(Random
3
2、左删失(Left
研究对象在时刻
Cl
开始接受观察,而在此之前我们感兴趣的时间已经发生,这就是左删失。
“您初次吸食大麻是在什么时候?
”有一种回答:
“我吸食过,但我不记得吸食的具
”
体时间了。
这些回答的吸食时间数据就是左删失。
通过测试确定儿童学会完成特定任务的年龄,有些儿童在进入研究前就已经可以完成某项
特定任务,这些儿童的事件发生时间也是左删失。
320091213043
出现左删失同时,也可能出现右删失,称为双删失(Double
例如:
对吸食大麻的
问卷还有一种回答:
“我从来没有吸食过”,这样的数据就是右删失。
3、区间删失(Intervalcensoring):
若个体的确切生存时间不知道,只知道其生存时间在
两个观察时间L
和
R
之间(L<
R),则称该个体的生存时间在[L,R]上是区间删失的。
实际
工作中,凡是不能或者不愿作连续监测时就会遇到这样的区间删失。
区间删失分两种:
第一类区间删失(Case
Interval
censoring)和第二类区间删失(Case
II
当对个体只进行一次观察,且个体的确切生存时间不知道,只知道其生存时间是否大于观
察时间(即
=
0
或
∞
),这种删失称为第一类区间删失,也称为现实状况数据
(Current
当对个体进行次观察,其观察时间
R满足
时,这种
删失称为第二类区间删失,也称为一般区间删失。
如果初始时间(如艾滋病感染时间)和发生时间均为区间删失,则称生存时间为双重区间
删失(Double
interval
三、截断(Truncation)
在研究或者观测中,淘汰了一些对象(样本),使得研究者“意识不到他们的存在”。
对截断
数据的分析构造似然采用条件分布。
截断包括两种:
左截断(Left
truncation)和右截断(Right
truncation)。
1、左截断(Left
Truncation):
只有个体经历某种初始事件以后才能观察到其生存时间,
称为左截断(Left
truncation),此时获得的数据称为左截断数据(Left-truncated
暴露于某疾病、发生死亡前的中间事件等。
退休中心老年居民死亡时间(没到年龄
没有进入观测)
左截断与左删失的区别:
在左截断的研究中,根本没有考虑那些在进入研究之前已经经历
了感兴趣时间的个体,而在左删失的研究中,我们能获得这些个体的部分信息。
即有左截断又存在右删失的情况,称为左截断右删失(Left-truncation
and
right-censoring)
2、右截断(Right
Truncation)
只有经历了某种终止事件才能观察到生存时间(将要经历该事件的个体不包含在实验样本
中),称为右截断(Righttruncation),此时获得的数据称为右截断数据(Right-truncated
对艾滋病感染和发病时间观测数据,有些个体感染病毒但尚未发病,这样的个体不
在样本范围之内。
320091213044
3、截断的数学表示
设
Y
是一个非负的表示生存时间的随机变量;
T
是另外一个表示截断时间的随机变量。
在左截断下,只有当
≥
时,才能观察到
Y;
≤
时,才能
观察到
Y。
第三章
基本函数和模型
一、生存函数(Survival
Function)
描述生存时间统计特征的基本函数,也叫生存率(Survival
Rate)
:
表示生存时间,F(t)
为
分布函数,生存函数定义为:
S
(t)
P(T
>
t)
-
F
(t),<
∞
生存函数性质:
非增函数。
满足
x→0+
(0+
)
lim
(x)
1
(+∞)
x→∞
当生存时间为连续型随机变量时:
⎰
f
(u)du
t
-S
'
-
dS
(t)
dt
生存函数
的图像叫做生存曲线(Survival
Curve),如下图:
陡峭的生存曲线表示较低的生产率或较短的生存时间;
平缓的生存曲线表示较高的生存率
或较长的生存时间。
离散生存时间产生于舍入操作将失效(或死亡)时间分组从区间和寿命用整数计量等。
离散时间生存函数是非增的阶梯函数,当
T取值为
a1
a2
,且
320091213045
(ai
ai
),i
1,2,L
,
∑
),
i
1,2,L
tai
离散时间生存函数是非增的阶梯函数
二、危险率函数(Hazard
Function):
危险率函数:
描述观察个体在某时刻存活条件下,在以后的单位时间内死亡的(条件)概
率:
λ(t)
lim
h→0+
+
h
h
当
连续
=
d
ln[S
(t)]
;
T离散,取值为
,则
处的危险率为
λi
)=
(ai-1
=∏
(1
-λi
∏
≤t
危险率函数在工程上叫做失效率函数或损坏函数,在生存分析和医学统计中又称为风险率
函数
或瞬时死亡率(Simultaneousdeathrate)、或死亡强度(Deathintensity)、或条件死亡率
(Conditional
death
rate)、或年龄死亡率(Age
rate)等。
常见风险函数曲线
320091213046
三、累积风险函数(Cumulative
Hazard
(t
)=
⎰λ
(u
)du
累积危险率函数:
Λ
连续,
Λ(
(
)]
⎡
⎤
⎣
⎦
离散时,危险率函数有两种定义形式:
λ
i
ln
-λi
如果
的值很小,两种定义形式的值接近
四、平均剩余寿命函数(Expected
residual
life)
平均剩余寿命函数定义为:
r(
E
r(0)为平均寿命。
五、常用的参数模型
生存时间的分布一般不呈正态分布。
常用的分布有:
指数分布、威布尔(Weibull)分布、
伽玛(Gamma)分布、对数罗吉斯蒂(logistic)分布、对数正态分布。
320091213047
生存函数形式为:
s(
exp[
(λ
]λ
0,α>
危险率函数为:
λ
)=λα(λ
1、指数分布
t,
exp(-
λt
0,
密度函数为:
λ(
指数分布的一个重要性质:
无记忆性(某事件的发生时间与历史记录无关),即
(
P
2、威布尔(Weibull)分布
α
其中
是尺度参数,α
是形状参数,α
1时为指数分布。
α
-1
适用于危险率递增(取α
1)、递减(取α
1)和为常数(取α
1)等各种情形。
3、伽玛(Gamma)分布
生存函数:
⎡λt
Γ(β
u
⎰
β
u)du
称为伽玛函数。
第四章
生存数据基本特征的非参数估计
一、生存函数的估计
假设事件发生在
D
个严格区分的时间点上:
t2
tD
在无删失条件下:
生存时间
t的个数
个体总数
二、右删失生存函数的估计:
)=⋅L⋅
ti
)P
ti-1
)L
t1
320091213048
存在右删失下:
Yi
di
Yi
D
Gill(1980)建议最大观察时间点以后的生存函数
(tmax
),即假设最大时间点上的
:
时刻ti面临危险的个体数;
di
时刻ti失效个体数
三、乘积限(product-limit)估计
乘积限估计又称
Kaplan-Meier
估计
)⎪
(ti
⎨di
⎩
tii
阶梯函数,在观察时间点上发生跳跃;
跳跃的高度
与上发生的事件数和
前删失数有关;
超出观测上限的时间没有给出很好的
估计。
四、乘积限估计尾部修正
Efron(1967)建议最大观察时间点以后的生存函数等于
0,即等价于假定最大时间点上的
生存者马上就会死亡。
(负偏估计)
))
生存者永远不会死。
(正偏估计)
Brown、Hollander
Kowar(1974)建议尾部估计为一条指数曲线,即
五、乘积限估计的方差
2
六、生存函数点估计的置信区间
利用渐进正态性的线性置信区间:
()
)-
Z
1-
其他变换形式的非线性置信区间
对数变换
反正弦平方根
七、累积死亡率的估计
无删失条件下危险率函数的估计:
320091213049
在时间t开始的区间中死亡的个数
在时间t存活着的个体数
⨯区间宽度
有删失条件下累计死亡率估计:
tt
1.直接利用累积死亡率与生存函数的关系:
2.Nelson-Aalen
估计为
⎧
0,t
t1
⎪
ti≤t
具有更好的小样本性质
Nelson-Aalen
估计的应用
1)用于选择事件发生时间的参数模型
2)为危险率提供粗估计(对估计进行核平滑后计算斜率)
八、累积死亡力函数的置信区间
线性置信区间:
平均生存时间:
μ=
)dt
估计式为:
μ
ˆτ
Sˆ(t
对数变换区间
反正弦平方根变化区间
注:
1、乘积限估计和
估计都是建立在非信息删失(non-informative
censoring)假
设下
2、乘积限估计的尾部估计:
a)取
0;
b)取最大观测点的值;
c)构造指数曲线
3、无删失时,乘积限估计即为经验生存函数
九、生命时间均值的估计
τ
3200912130410
i=1
十、左截断右删失数据生存函数的估计
只有生存到某时刻之后才能进入观察
乘积限估计(独立截断下是最大似然估计)
~⎡d
⎣Yi
在时刻ti之前进入区研究,且至少被研究到ti的个体数;
在时刻ti时死亡的个体数。
Lai
Ying(1991)修正乘积限估计:
(当风险集较小时忽略此处的死亡)
~⎧d
⎩Yi
十一、左删失数据生存函数估计
利用“时间倒转法”:
即不是从原点处测量时间,而是从很大的一个时间τ
倒着从相反的方向测量,用时间τ
减去原始时间,得到右删失数据结构,利用乘积限估计式估计
P(
X
P(X
τ
纯粹左删失情况很少见。
十二、同时存在左、右删失情况
=t1<
tm
为观察时间点,
j
表示
时的死亡数,
rj
时的右删失数,
c
时的左删失数,则生存函数的迭代估计步骤为:
j
步骤
0:
忽略左删失获得乘积限估计作为
S0
()的初始估计;
(j
i)
步骤(K+1)1:
使用
的当前估计值通过估计
pij
P[]
步骤(K+1)2:
使用上一步骤的结果,估计在
时发生的事件数为
+
m
i=
ij
步骤(K+1)3:
使用上一步修正后的右删失数据,仍然忽略左删失计算乘积限估计。
如
3200912130411
果这一估计在所有
处都有
SK+1(
)接近
SK
),则停止迭代,否则继续步骤
1。
十三、右截断数据生成函数的估计
传染病的研究中比较常见。
Ti
代表第
个个体被传染的时间,
是从感染到发病的时间。
研究样本包含从
到τ
期间病人的观测值
(Ti
).(只有在时间τ
之前发病的人才进入研
究)。
利用颠倒时间轴法:
令
Ri
则变为
左截断的,便可构造
P(R
0)=
)的乘积限估计式。
十四、生命表中生存函数的估计
生命表(也称寿命表,lifetable)方法是测定死亡率和描述群体生存现象的最古老的技术之
一。
主要用于保险精算、人口学、医学等方面。
一组(大规模)个体在整个考察时间上被连续观察,它们的事件发生时间或删失时间被记
入
a(
k
1个相邻但不重叠的区间内
[
j-1,
a
1,L
1)
2.
第二列给出进入第
个区间的对象数
Yj
,这些个体还没有经历观察事件的发生。
间在区间上是均匀分布的,则
W
/
根据生命表方法应用的范围不同,可分为人口生命表和临床生命表,分析方法相似。
生命表方法数据假设
(1)独立删失:
假定删失的事件时间(包括损失和退出)与它们如果一直被观察到事件发
生所得到的死亡时间是独立的。
(2)假定删失时间和死亡时间是均匀分布在每个区间上的。
(3)假定死亡力在区间内是常数。
生命表的构造方法
1.
第一列给出相邻但不重叠的固定区间
a(,
Ii
1)
a0
ak+1
事件发生时间和删失时间将落入且只落入其
中的一个区间。
3.
第三列给出在第
个区间中失去踪迹(死亡)或活着退出观察(迁出)的个体数W
4.
第四列给出在第
个区间中,面临观察事件风险的暴露数
的一个估计值,假设删失时
3200912130412
5.
第五列是在第
个区间中发生观察事件(如死亡)的个体数
6.
j-1
]=
∏
且
i=1
ˆ
a
生命表分析的主要任务就是估计
),基本思想:
乘积限方法。
a,a
/
7.
第七列给出估计的第
个区间中点处的概率密度函数
mj
)其中
amj
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生存 分析 概念