临床试验疗效的评价.docx
- 文档编号:11457270
- 上传时间:2023-03-01
- 格式:DOCX
- 页数:14
- 大小:27.42KB
临床试验疗效的评价.docx
《临床试验疗效的评价.docx》由会员分享,可在线阅读,更多相关《临床试验疗效的评价.docx(14页珍藏版)》请在冰豆网上搜索。
临床试验疗效的评价
临床试验疗效的评价
———————————————————————————————— 作者:
———————————————————————————————— 日期:
ﻩ
疗效的评价
疗效可通过比较病人治疗前后病情的变化来评价。
在治疗进行过程中也可评价,以确定病人病情改善的程度和速度。
有许多确定病人病情改善或恶化的方法。
这些方法中许多为主观性的,如各种问卷法或量表法,而有些则是客观性的指标,如用仪器设备测量体温、血压、心率、呼吸流速等,然后以具体的数值记录下来。
客观指标更适合表明基线(治疗前),与治疗后的差异,而主观性的指标结果在解释时往往有更大的随意性。
因此应当尽可能地使主观指标通过改善评估方法进行客观地表述,如采用精心设计的量表或标尺法等。
最通用的量表为赫密顿抑郁症量表。
用该量表可以评估病人抑郁症的严重程度。
医生通过询问病人许多有关他们的感觉和所经历症状的问题,然后给每个问题的答案按照程度打分,最后将每一问题的分数累加得到总分,将治疗前后的总分进行比较就可以得出病人的疗效如何的结论。
现在有许多类似的量表,可以对不同的病症进行评价。
量表常常采用四分制或五分制。
例如,在评价病有的疼痛程度时,可请病人将其疼痛分为无、微、中等和严重四级。
也可以再加一级,如非常严重,以使描述更为精确(图4.1)。
疼痛程度:
无□ 微 □中等□严重 □非常严重□
图4.1量表打分示例
另一种量表的例子是直观类比打分法(Visual analoguescale,VAS)或标尺法。
一般用100mm长的一条线的一头代表某种症状的极端情况,例如,如果要想评价病人的睡眠情况,可以在线条的最左端标注“一点没睡”,而在线条的最右端标注“经历过的最好睡眠”(图4.2)。
在询问病人前一天晚上的睡眠状况时,可请他或她在该线条上标注记号来代表其睡眠情况。
然后度量从最左端到病人所标记号位置的距离就可以记录下来作为该病人的睡眠情况。
可以看出,直观类比打分法是一种主观感觉定量化的方法。
同样,对病人疼痛程度的评价也可以采用类似的方法。
将会行到比图4.1所示方法更精确的结果。
100mm
一 实 所
点 际 经
没 睡 历
睡 眠 过
的
70mm 最
好
睡
眠
图4.2直观类比打分法示例
采用客观性的临床和实验室检查指标,当然更能反映疗效的量变化。
但是,检查项目的设置要与试验目的相关,数量并不是越多越好,特别是创伤性的检查。
同时还要考虑费用问题。
在选择检查项目时,应考虑如下几点:
● 关联性:
与试验的目的相一致;
● 普通性:
能观测所有受试者的变化;
● 准确性:
观测值与真实值接近的程度高;
● 精确性:
能无偏倚地反映各种现象,且多次观测结果的重复性好;
● 灵敏性:
能够反映受试者最小的变化;
● 依从性:
受试者和医务人员乐于接受等。
可以用一项重要指标,如治愈率作为疗效判断标准,或采用几项指标反映疗效,如生存率、复发率、转移率等。
也可采用多因素分析对结果进行判断;还可以综合多项指标,如症状、体症、料验室检查、病因学指标等形成一项最终的疗效评价结果,如痊愈(cure)、显效(excellet)、好转(improvement)或无效(failure)。
任何标准都应当科学合理,使药品审评人员能够接受。
不管选择什么方法来评价疗效,都要谨慎从事,确保所采用方法的可靠性和有效性,更重要的是适合表示治疗前后的差别。
许多常规的临床评价指标仅仅适于诊断疾病,但用来评估病人的病情变化却不够精确和可靠。
统计人员最好尽早介入临床试验设计以便选择最合适的评价方法。
在评价疗效时的一个混淆性因素是安慰剂效应。
在开发新药时,重要的是要证明用活性药品治疗比用安慰剂治疗更有效。
要得到这一点并不容易,许多化合物因此而“流产”。
同样重要的是比较新药与已有药品,包括在市场一线使用的药品的疗效。
这是药品审批部门和医生尤为关注的问题。
临床试验中中心效应的评价及处理方法
摘要 探讨多中心临床试验中,中心效应的评价与处理方法,采用Breslow-Day检验对有效率的中心间差异进行评价,采用CMH方法对组间有效率及疗效等级进行分析,采用logistic回归方法对中心效应及有效率或疗效等级同时进行评价。
结果提示,Breslow-Day检验只能对有效率的中心间差异进行评价,而不能对疗效等级的中心差异进行评价,CMH方法不能同时考虑其它协变量的影响。
关键词 多中心临床试验;中心效应;Breslow-Day检验;CMH检验;logistic回归;有序结果的logistic回归
中图分类号:
R51
文献标识码:
Aﻫ文章编号:
1009-2501(2004)09-1073-04
我国药品注册管理办法中规定,新药的II、III期临床试验必须是多中心的。
多中心临床试验可以在较短的时间内招募到足够多的病例数,同时,来自多中心的病例比来自单中心的病例更具有代表性,可以使所得结论的应用面更广泛。
但由于各中心的试验条件不完全相同,所得结论也不尽相同。
因此,在评价疗效时,必须考虑中心间效应的差别。
当中心间差距较大时,如果直接合并各中心资料,可能会对总的结论有一定影响。
这里涉及到两个问题,其一是评价中心效应是否存在,其二是如何扣除中心效应的影响对疗效进行比较。
目前,评价有效率的中心间差别,常用Breslow-Day检验;而消除中心间的差异对疗效的影响,常采用CMH(Cochran-Mental-Haenszel)方法。
本文简单介绍有效率的中心间差别的Breslow-Day检验,以及扣除中心效应的CMH方法;并进一步讨论logistic回归模型在对中心效应进行评价和修正中的应用。
1 实例
在一项5中心的II期临床试验中,每个中心48例,试验组和安慰剂组各24例。
试验结果如下(ITT集)。
试评价各中心间是否存在差异,并对该资料进行分析(表1)。
表1 5个中心有效率和疗效的比较
中心
组别
无效
有效
有效率(%)
合计
无效
进步
显效
近愈
1
治疗组
1
4
9
10
79.17
24
安慰剂组
15
6
2
1
12.50
24
2
治疗组
2
5
7
11
75.00
24
安慰剂组
12
8
1
3
16.67
24
3
治疗组
2
4
6
12
75.00
24
安慰剂组
14
7
3
0
12.50
24
4
治疗组
2
5
6
11
70.83
24
安慰剂组
10
12
2
0
8.33
24
5
治疗组
3
5
6
10
66.67
24
安慰剂组
8
11
4
1
20.83
24
2 CMH方法ﻫ2.1 有效率评价 在评价有效率时,结果变量为二分类的,此时可以用Breslow-Day检验对各中心有效率的齐同性(homogeneity)进行检验。
该统计量近似服从自由度(degreeof freedom,DF)为“中心数-1”的X2分布,计算可以借助于SAS统计分析软件。
ﻫ 本例Breslow-Day检验:
X2=2.1743,DF=4,P=0.7037。
说明各中心间差异无统计学意义。
记每个四格表的4个频数分别为a,b,c,d,合计用n表示,用下标j表示第j个中心,则:
第j中心的a对应的理论频数及方差为:
Mj=[(aj+bj)(aj+cj)]/nj
Vj=[(aj+bj)(cj+dj)(aj+cj)(bj+dj)]/nj2(nj-1)
则扣除中心效应后的两组有效率比较的CMHX2为(Cochran-Mantel-HaenszelStatistics):
X2CMH=[(∑aj-∑mj)2]/∑vj
该统计量近似服从自由度为1的X2分布。
ﻫ 本例,CMH检验的X2=83.7494,DF=1,P<0.001。
从而,可以认为,扣除中心效应后,试验组和对照组的有效率差别有统计学意义。
试验组的有效率高于安慰剂对照组。
2.2 疗效等级的评价 在评价疗效等级时,结果变量为有序多分类的,不能用Breslow-Day检验对中心间的疗效等级是否存在差异进行评价。
但可以用CMH方法扣除中心间的差异(不管是否真的有差异),对两组的疗效等级进行比较。
此时,CMHX2的计算与上不同,但仍服从自由度为1的X2分布。
本例CMHX2=89.3660,P<0.0001。
这表示扣除中心间差异后,仍可认为试验组和对照组的疗效等级差异有统计学意义。
3Logistic回归对有效率的评价ﻫ Breslow-Day检验只能对二分类变量的中心间差异进行分析,而对多分类以及有序多分类变量无能为力,且CMH方法只能评价扣除中心间差异后,组间是否存在差异。
即上述方法对评价中心间是否有差异,与扣除中心差异后两组间比较是分别完成的。
而logistic回归可以对两种分析同时进行。
以无效(Y=0)和有效(Y=1)作为因变量,此时,因变量为0-1变量(二分类变量),以组别treat和中心center作为自变量,进行logistic回归。
其中,不同中心用哑变量表示(表2)。
表2 5个中心的哑变量(dummyvariables)表示
Center
Cnt1
Cnt2
Cnt3
Cnt4
Cnt5
1
1
0
0
0
0
2
0
1
0
0
0
3
0
0
1
0
0
4
0
0
0
1
0
5
0
0
0
0
1
分别建立包含中心效应和不包含中心效应的logistic回归,比较两者的对数似然函数值(loglikelihood ratio),从而判断是否存在中心效应。
不包含中心效应的logistic回归方程:
logitP=a+Btreatﻫ 包含中心效应的logistic回归方程:
logitp=a+Btreat+B1cnt1+B2cnt2+B3cnt3+B4cnt4;
用4个变量cnt1~cnt4表示5个中心。
ﻫ 用SAS建立回归方程,并作比较(表3)。
表3 扣除中心效应有效率比较的logistic回归
包含中心效应的logistic回归
不包含中心效应的logistic回归
系数
标准误
WaldX2
P
系数
标准误
WaldX2
P
参数项
-1.0164
0.2071
24.0733
<0.0001
-1.0116
0.2064
24.0143
<0.0001
Treat
2.8252
0.3350
71.1290
<0.0001
2.8131
0.3334
71.2003
<0.0001
Cnt1
-0.1318
0.3252
0.1643
0.6852
Cnt2
-0.1318
0.3252
0.1643
0.6852
Cnt3
0.0001
0.3247
0.0000
0.9997
Cnt4
0.2633
0.3253
0.6555
0.4181
对数似然函数值 -118.153
-118.547
中心效应的似然比检验 X2=-2×(118.153-118.547)=0.789,df=4,P=0.9399
结果表明,4个中心的参数均无统计学意义,通过对比包含与不包含中心参数的模型的对数似然函数值,得X2=0.789,DF=4,P=0.939,故可以认为中心间差异无统计学意义。
在扣除了中心间的差异后,两个组有效率之间的差异有统计学意义(Wald X2=71.1290,P<0.0001)。
需要注意的是,这里的4个中心cnt1~cnt4参数的假设检验,表示1-4中心分别与第5中心相比较。
1-4中心间差异是否有统计学意义,可以通过比较各自的系数之间的差异即中心效应的检验不是根据4个中心参数的假设检验结果,而是用包含中心效应的模型与不包含中心效应的模型两者的似然函数进行似然比检验。
4累积优势的logistic回归对疗效等级的评价
有时,结果变量是等级变量,即为有序多分类的(ordinalresponse),例如无效、进步、显效、近愈。
此时,不能用传统的logistic回归进行分析,而应建立有序结果的累积优势logistic回归(ordinallogisticregression)。
ﻫ 设结果变量Y为k个等级的有序变量,k个等级分别用1,2,.....,k表示。
有序分类结果的logistic回归定义为:
该模型称为累积优势模型(cumulative oddsmodel),该模型有(k-1)+p个参数,aj和Bi为待估参数( j=1,2,...k-1,i=1,2,...,p)。
aj(j=1,2,...,k-1),为k-1个常数项;Bi为回归系数。
当k=2时,累积优势模型就退化为普通的二类结果的logistic模型。
也就是说,有序结果的累积优势logistic,回归是普通的logistic,回归的一个推广。
其分析思路相同(表4)。
表4 扣除中心效应的疗效等级比较的累积优势logistic回归
包含中心效应的logistic回归
不包含中心效应的logistic回归
系数
标准误
WaldX2
P
系数
标准误
WaldX2
P
常数项1
-1.3389
0.1736
259.4850
<0.0001
-1.3346
0.1732
59.4010
<0.0001
常数项2
0.3397
0.1559
4.7474
0.0293
0.3379
0.1556
4.7165
0.0299
常数项3
1.5683
0.1802
75.7592
<0.0001
1.5662
0.1798
75.8729
<0.0001
Treat
-1.3487
0.1461
85.2308
<0.0001
-1.3416
0.1458
84.7036
<0.0001
Cnt1
0.1805
0.2425
0.5537
0.4568
Cnt2
-0.0559
0.2417
0.0535
0.8171
Cnt3
0.0837
0.2420
0.1196
0.7295
Cnt4
-0.0409
0.2417
0.0287
0.8655
对数似然函数值 -277.938
-278.433
中心效应的似然比检验 X2=0.991,df=4,P=0.9112
中心效应的比较方法同样采用似然比检验。
结论为:
中心间差异无统计学意义,X2=0.991,P=0.9112。
扣除中心间差异后,试验组和对照组的疗效等级存在差异。
5讨论ﻫ 多中心临床试验是由一个研究者负责,在不同试验中心按同一试验方案,同时、平行进行的一种联合临床试验。
本人认为,对多中心临床试验必须进行中心间一致性的评价,并且,对主要疗效指标的比较与评价必须在扣除中心效应(无论是否有统计学意义)的基础上进行。
各分中心的资料因样本含量较少,宜进行描述性分析,而不必进行统计学的参数估计和假设检验,单独发表各分中心的结果是不妥当的。
另一种分析和处理中心效应的方法是meta分析(metaanalysis)。
该方法实际上是一个加权平均(weightedverage),对各中心的样本含量、观察指标的方差等进行加权,样本含量多的中心权重大,而方差大的中心权重小。
ﻫ Logistic 回归用于处理和分析中心效应的另一个优点是,在回归模型中可以增加很多协变量(covariate)。
因为,影响疗效指标的因素很多,例如,患者的年龄、病情严重程度、是否有并发症、基线(baseline)等,用CMH方法或meta分析,一次只能对一两个协变量进行校正,而用logistic回归模型,可以在分析和处理中心效应时,对其它多个因素同时进行分析,还可以分析因素间的交互作用(interaction)。
因此,logistic回归的应用是非常方便、灵活的。
临床研究和评价一般规律的主要要素
临床研究的一般规律是在临床研究过程中必须遵循的共同准则,如何认识和把握临床研究的一般规律,在理论和实践层面均具有十分重要的意义。
笔者通过对此问题的思考和在药品临床评价中的体会,总结了以下临床研究和评价一般规律的主要要素。
1、临床研究在药品整个研发过程中的地位
勿容置疑,临床研究在药品整个研发过程中处于核心和关键的阶段。
药品上市许可的直接证据来自充分可靠的人体研究,因此临床研究对于揭示药品的特点,阐述其安全有效性,阐明病人的获益和风险有着不可替代的作用,对于药品的注册上市有着决定性的意义。
2、临床研究应该处理好主观与客观的关系
临床研究中一定要处理好主观愿望和主观推论与客观数据之间的关系,加强对于试验方法学的评价和试验质量的控制,以保证实事求是地得出客观的结论。
(1)临床试验中要避免主观愿望对于试验设计和结论解释中带来的不客观倾向。
不了解患者真正的治疗需求,不通过探索和确证的研究过程,仅追求形式上满足注册最低要求的I、II、III期临床试验,主观地希望药品上市,是目前国内临床研究犯下主观主义错误的思想基础。
剂量选择是临床试验中比较容易受主观愿望影响的环节,有的企业主观希望研究的新药优于目前已经上市流通的药品,因而他们可能在临床试验中通过不断提高剂量以到达优效目的,而错过了病人有效和安全之间到达最佳平衡的剂量,或混淆了对病人的最大化治疗与最合适治疗之间的界线,这种倾向在今天已经有诸多药品选择的情况下越来越突出,使得药品的剂量不断地加大。
在一些已经上市的药品中经过多年使用后,均发现存在剂量过大的问题(利尿剂在高血压中多年的高剂量使用,近年才发现,利尿剂的使用应该遵循低剂量原则),一定要避免主观的愿望左右了对于客观事实的判断,错过了本应该淘汰的药品或错过药品的最佳剂量。
(2)临床试验中要避免主观推论对于试验设计和结论解释中带来的不客观倾向。
药品的研究是一个不断寻求客观证据,证明安全有效的过程,任何的主观推论均需要十分慎重。
在药品研究和评价中,重客观证据,轻主观推论的思想应该贯穿于整个过程中。
临床试验中,观察指标的选择,结果分析解释等环节容易出现主观推论的倾向,在替代终点与临床终点之间的关系尚未明确建立时,从替代终点推导临床获益进行过多解释就是主观推论典型的表现。
许多的临床试验中(CAST试验,正性肌力药在心衰中的试验等)证实了这种解释的有害性。
(3)保证试验结果客观的重要手段是要加强对于试验方法学的评价。
试验结果的客观性首先要求研究者对于每一次试验数据的采集均为真实和客观的,这需要研究者本人自律、独立的临床监察参与、管理部门监管共同保证。
而对于试验系统本身,研究者和评价者均需要着重对方法学进行仔细评价,以避免系统误差的产生,保证数据的客观性。
许多的试验方法如:
随机化,盲法设置、采用对照、观察指标的客观化、指标测量的标准化等均为保证试验结果客观的重要手段,在评价中则需要对申办者宣称的客观的方法学进行详细的评价,所宣称的随机化是否真正地随机,盲法的设置是否确实执行了盲法操作等等。
3、临床研究应该处理好部分与整体的关系
置身于药品的整个研究过程中观察临床研究在其中的作用和地位,置身于药品系列临床研究开发过程中设计和理解单个临床试验在其中的位置,置身于单个试验的全过程中观察试验各个阶段在其中的相互关系,均需要处理好部分与整体的关系。
(1)临床研究与整个药品研究的关系
临床研究与整个药品研究的关系是部分与整体的关系。
药品的研究包括了化学合成、制剂学、质量控制、作用机制、药效药理学、毒理学、药动学、临床研究等诸多学科的全面和整体研究,临床研究在其中虽然有着十分重要的地位,但不注意处理好临床研究与其他非临床研究的关系,忽略非临床研究对于临床研究的支持作用,则容易产生冒进和增加患者和临床研究失败的风险。
根据开发过程中不同制剂间生物利用度的比较来确定不同制剂间临床研究安全有效性的关系,根据动物安全性暴露的程度和结果决定支持何种程度的临床研究,根据动物与人体药代的差异结果解释动物对人体反应的推测作用,根据不同批次样品临床不同的安全性反应确定药品质量控制中对于安全性指标的设置和限度等等均说明临床研究与药品开发的其他方面的研究具有非常密切的联系,割裂这种联系是混淆部分与整体在药品开发中的具体体现。
(2)单个临床试验与临床研究开发总过程的关系
临床研究总的开发计划旨在通过系列的临床研究不断揭示产品的安全、有效、药代、依从性等方面的特点,而具体的单个临床试验作为其中的一部分为整体服务。
单个临床试验的设计很大程度上依赖与已经完成的研究结果和总的计划目标,对单个临床试验结果的解释不能仅居于试验本身,要结合整体临床试验中其他试验的结果,对药品临床研究的总体解释必须汇集不同试验的结果,特别要注意不同试验之间的差别及差别产生的原因。
(3)临床试验各阶段与试验整体之间的关系
单个临床试验由设计、执行、分析、结论、报告等诸多环节组成,各环节之间密切联系,不可分割。
不重视彼此之间的联系,可能使得一个设计良好的试验由于实施中的问题而不能得出结论,设计、执行良好的试验可能由于分析方法错误而得出错误的结论,或者由于报告质量不好而不能给读者形成整体的试验印象。
(4)临床试验中需要避免以部分替代整体的错误
临床试验中部分替代整体的错误在抽样误差的控制和结果的解释中容易发生。
临床试验中抽样误差的控制实际是尽可能地减少部分代替整体错误的发生。
由于病人总体的不可获得性,因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 临床试验 疗效 评价