书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 其它 > 临床试验疗效的评价.docx

临床试验疗效的评价.docx

文档编号：10565576
上传时间：2023-02-21
格式：DOCX
页数：13
大小：24.77KB

临床试验疗效的评价.docx

《临床试验疗效的评价.docx》由会员分享，可在线阅读，更多相关《临床试验疗效的评价.docx（13页珍藏版）》请在冰豆网上搜索。

临床试验疗效的评价.docx

临床试验疗效的评价

疗效评价

疗效可通过比较病人治疗前后病情变化来评价。

在治疗进行过程中也可评价，以确定病人病情改善程度和速度。

有许多确定病人病情改善或恶化方法。

这些方法中许多为主观性，如各种问卷法或量表法，而有些则是客观性指标，如用仪器设备测量体温、血压、心率、呼吸流速等，然后以具体数值记录下来。

客观指标更适合表明基线（治疗前），和治疗后差异，而主观性指标结果在解释时往往有更大随意性。

因此应当尽可能地使主观指标通过改善评估方法进行客观地表述，如采用精心设计量表或标尺法等。

最通用量表为赫密顿抑郁症量表。

用该量表可以评估病人抑郁症严重程度。

医生通过询问病人许多有关他们感觉和所经历症状问题，然后给每个问题答案按照程度打分，最后将每一问题分数累加得到总分，将治疗前后总分进行比较就可以得出病人疗效如何结论。

现在有许多类似量表，可以对不同病症进行评价。

量表常常采用四分制或五分制。

例如，在评价病有疼痛程度时，可请病人将其疼痛分为无、微、中等和严重四级。

也可以再加一级，如非常严重，以使描述更为精确（图4.1）。

疼痛程度：

无□微□中等□严重□非常严重□

图4.1量表打分示例

另一种量表例子是直观类比打分法（Visualanaloguescale,VAS）或标尺法。

一般用100mm长一条线一头代表某种症状极端情况，例如，如果要想评价病人睡眠情况，可以在线条最左端标注“一点没睡”，而在线条最右端标注“经历过最好睡眠”（图4.2）。

在询问病人前一天晚上睡眠状况时，可请他或她在该线条上标注记号来代表其睡眠情况。

然后度量从最左端到病人所标记号位置距离就可以记录下来作为该病人睡眠情况。

可以看出，直观类比打分法是一种主观感觉定量化方法。

同样，对病人疼痛程度评价也可以采用类似方法。

将会行到比图4.1所示方法更精确结果。

100mm

一实所

点际经

没睡历

睡眠过

70mm 最

好

睡

眠

图4.2直观类比打分法示例

采用客观性临床和实验室检查指标，当然更能反映疗效量变化。

但是，检查项目设置要和试验目相关，数量并不是越多越好，特别是创伤性检查。

同时还要考虑费用问题。

在选择检查项目时，应考虑如下几点：

关联性：

和试验目相一致；

普通性：

能观测所有受试者变化；

准确性：

观测值和真实值接近程度高；

精确性：

能无偏倚地反映各种现象，且多次观测结果重复性好；

灵敏性：

能够反映受试者最小变化；

依从性：

受试者和医务人员乐于接受等。

可以用一项重要指标，如治愈率作为疗效判断标准，或采用几项指标反映疗效，如生存率、复发率、转移率等。

也可采用多因素分析对结果进行判断；还可以综合多项指标，如症状、体症、料验室检查、病因学指标等形成一项最终疗效评价结果，如痊愈（cure）、显效（excellet）、好转（improvement）或无效（failure）。

任何标准都应当科学合理，使药品审评人员能够接受。

不管选择什么方法来评价疗效，都要谨慎从事，确保所采用方法可靠性和有效性，更重要是适合表示治疗前后差别。

许多常规临床评价指标仅仅适于诊断疾病，但用来评估病人病情变化却不够精确和可靠。

统计人员最好尽早介入临床试验设计以便选择最合适评价方法。

在评价疗效时一个混淆性因素是安慰剂效应。

在开发新药时，重要是要证明用活性药品治疗比用安慰剂治疗更有效。

要得到这一点并不容易，许多化合物因此而“流产”。

同样重要是比较新药和已有药品，包括在市场一线使用药品疗效。

这是药品审批部门和医生尤为关注问题。

临床试验中中心效应评价及处理方法

摘要探讨多中心临床试验中，中心效应评价和处理方法，采用Breslow-Day检验对有效率中心间差异进行评价，采用CMH方法对组间有效率及疗效等级进行分析，采用logistic回归方法对中心效应及有效率或疗效等级同时进行评价。

结果提示，Breslow-Day检验只能对有效率中心间差异进行评价，而不能对疗效等级中心差异进行评价，CMH方法不能同时考虑其它协变量影响。

关键词多中心临床试验；中心效应；Breslow-Day检验；CMH检验；logistic回归；有序结果logistic回归

中图分类号：

R51

文献标识码：

A

文章编号：

1009-2501（2004）09-1073-04

我国药品注册管理办法中规定，新药II、III期临床试验必须是多中心。

多中心临床试验可以在较短时间内招募到足够多病例数，同时，来自多中心病例比来自单中心病例更具有代表性，可以使所得结论应用面更广泛。

但由于各中心试验条件不完全相同，所得结论也不尽相同。

因此，在评价疗效时，必须考虑中心间效应差别。

当中心间差距较大时，如果直接合并各中心资料，可能会对总结论有一定影响。

这里涉及到两个问题，其一是评价中心效应是否存在，其二是如何扣除中心效应影响对疗效进行比较。

目前，评价有效率中心间差别，常用Breslow-Day检验；而消除中心间差异对疗效影响，常采用CMH（Cochran-Mental-Haenszel）方法。

本文简单介绍有效率中心间差别Breslow-Day检验，以及扣除中心效应CMH方法；并进一步讨论logistic回归模型在对中心效应进行评价和修正中应用。

1 实例

在一项5中心II期临床试验中，每个中心48例，试验组和安慰剂组各24例。

试验结果如下（ITT集）。

试评价各中心间是否存在差异，并对该资料进行分析（表1）。

表1 5个中心有效率和疗效比较

中心

组别

无效

有效

有效率（%）

合计

无效

进步

显效

近愈

1

治疗组

1

4

9

10

79.17

24

安慰剂组

15

6

2

1

12.50

24

2

治疗组

2

5

7

11

75.00

24

安慰剂组

12

8

1

3

16.67

24

3

治疗组

2

4

6

12

75.00

24

安慰剂组

14

7

3

0

12.50

24

4

治疗组

2

5

6

11

70.83

24

安慰剂组

10

12

2

0

8.33

24

5

治疗组

3

5

6

10

66.67

24

安慰剂组

8

11

4

1

20.83

24

2 CMH方法

2.1 有效率评价在评价有效率时，结果变量为二分类，此时可以用Breslow-Day检验对各中心有效率齐同性（homogeneity）进行检验。

该统计量近似服从自由度（degreeoffreedom,DF）为“中心数-1”X2分布，计算可以借助于SAS统计分析软件。

本例Breslow-Day检验：

X2=2.1743,DF=4,P=0.7037。

说明各中心间差异无统计学意义。

记每个四格表4个频数分别为a，b，c，d，合计用n表示，用下标j表示第j个中心，则：

第j中心a对应理论频数及方差为：

Mj=[（aj+bj）（aj+cj）]/nj

Vj=[（aj+bj）（cj+dj）（aj+cj）（bj+dj）]/nj2（nj-1）

则扣除中心效应后两组有效率比较CMHX2为（Cochran-Mantel-HaenszelStatistics）：

X2CMH=[（∑aj-∑mj）2]/∑vj

该统计量近似服从自由度为1X2分布。

本例，CMH检验X2=83.7494,DF=1,P<0.001。

从而，可以认为，扣除中心效应后，试验组和对照组有效率差别有统计学意义。

试验组有效率高于安慰剂对照组。

2.2 疗效等级评价在评价疗效等级时，结果变量为有序多分类，不能用Breslow-Day检验对中心间疗效等级是否存在差异进行评价。

但可以用CMH方法扣除中心间差异（不管是否真有差异），对两组疗效等级进行比较。

此时，CMHX2计算和上不同，但仍服从自由度为1X2分布。

本例CMHX2=89.3660,P<0.0001。

这表示扣除中心间差异后，仍可认为试验组和对照组疗效等级差异有统计学意义。

3Logistic回归对有效率评价

Breslow-Day检验只能对二分类变量中心间差异进行分析，而对多分类以及有序多分类变量无能为力，且CMH方法只能评价扣除中心间差异后，组间是否存在差异。

即上述方法对评价中心间是否有差异，和扣除中心差异后两组间比较是分别完成。

而logistic回归可以对两种分析同时进行。

以无效（Y=0）和有效（Y=1）作为因变量，此时，因变量为0-1变量（二分类变量），以组别treat和中心center作为自变量，进行logistic回归。

其中，不同中心用哑变量表示（表2）。

表2 5个中心哑变量（dummyvariables）表示

Center

Cnt1

Cnt2

Cnt3

Cnt4

Cnt5

1

0

2

0

1

0

3

0

1

0

4

0

1

0

5

0

1

分别建立包含中心效应和不包含中心效应logistic回归，比较两者对数似然函数值（loglikelihoodratio），从而判断是否存在中心效应。

不包含中心效应logistic回归方程：

logitP=a+Btreat

包含中心效应logistic回归方程：

logitp=a+Btreat+B1cnt1+B2cnt2+B3cnt3+B4cnt4;

用4个变量cnt1~cnt4表示5个中心。

用SAS建立回归方程，并作比较（表3）。

表3 扣除中心效应有效率比较logistic回归

包含中心效应logistic回归

不包含中心效应logistic回归

系数

标准误

WaldX2

P

系数

标准误

WaldX2

P

参数项

-1.0164

0.2071

24.0733

<0.0001

-1.0116

0.2064

24.0143

<0.0001

Treat

2.8252

0.3350

71.1290

<0.0001

2.8131

0.3334

71.2003

<0.0001

Cnt1

-0.1318

0.3252

0.1643

0.6852

Cnt2

-0.1318

0.3252

0.1643

0.6852

Cnt3

0.0001

0.3247

0.0000

0.9997

Cnt4

0.2633

0.3253

0.6555

0.4181

对数似然函数值 -118.153

-118.547

中心效应似然比检验 X2=-2×（118.153-118.547）=0.789,df=4,P=0.9399

结果表明，4个中心参数均无统计学意义，通过对比包含和不包含中心参数模型对数似然函数值，得X2=0.789,DF=4,P=0.939，故可以认为中心间差异无统计学意义。

在扣除了中心间差异后，两个组有效率之间差异有统计学意义（WaldX2=71.1290,P<0.0001）。

需要注意是，这里4个中心cnt1~cnt4参数假设检验，表示1-4中心分别和第5中心相比较。

1-4中心间差异是否有统计学意义，可以通过比较各自系数之间差异即中心效应检验不是根据4个中心参数假设检验结果，而是用包含中心效应模型和不包含中心效应模型两者似然函数进行似然比检验。

4累积优势logistic回归对疗效等级评价

有时，结果变量是等级变量，即为有序多分类（ordinalresponse），例如无效、进步、显效、近愈。

此时，不能用传统logistic回归进行分析，而应建立有序结果累积优势logistic回归（ordinallogisticregression）。

设结果变量Y为k个等级有序变量，k个等级分别用1，2，.....，k表示。

有序分类结果logistic回归定义为：

该模型称为累积优势模型（cumulativeoddsmodel），该模型有（k-1）+p个参数，aj和Bi为待估参数（j=1,2,...k-1,i=1,2,...,p）。

aj（j=1,2,...,k-1），为k-1个常数项；Bi为回归系数。

当k=2时，累积优势模型就退化为普通二类结果logistic模型。

也就是说，有序结果累积优势logistic,回归是普通logistic,回归一个推广。

其分析思路相同（表4）。

表4 扣除中心效应疗效等级比较累积优势logistic回归

包含中心效应logistic回归

不包含中心效应logistic回归

系数

标准误

WaldX2

P

系数

标准误

WaldX2

P

常数项1

-1.3389

0.1736

259.4850

<0.0001

-1.3346

0.1732

59.4010

<0.0001

常数项2

0.3397

0.1559

4.7474

0.0293

0.3379

0.1556

4.7165

0.0299

常数项3

1.5683

0.1802

75.7592

<0.0001

1.5662

0.1798

75.8729

<0.0001

Treat

-1.3487

0.1461

85.2308

<0.0001

-1.3416

0.1458

84.7036

<0.0001

Cnt1

0.1805

0.2425

0.5537

0.4568

Cnt2

-0.0559

0.2417

0.0535

0.8171

Cnt3

0.0837

0.2420

0.1196

0.7295

Cnt4

-0.0409

0.2417

0.0287

0.8655

对数似然函数值 -277.938

-278.433

中心效应似然比检验 X2=0.991,df=4,P=0.9112

中心效应比较方法同样采用似然比检验。

结论为：

中心间差异无统计学意义，X2=0.991，P=0.9112。

扣除中心间差异后，试验组和对照组疗效等级存在差异。

5讨论

多中心临床试验是由一个研究者负责，在不同试验中心按同一试验方案，同时、平行进行一种联合临床试验。

本人认为，对多中心临床试验必须进行中心间一致性评价，并且，对主要疗效指标比较和评价必须在扣除中心效应（无论是否有统计学意义）基础上进行。

各分中心资料因样本含量较少，宜进行描述性分析，而不必进行统计学参数估计和假设检验，单独发表各分中心结果是不妥当。

另一种分析和处理中心效应方法是meta分析（metaanalysis）。

该方法实际上是一个加权平均（weightedverage），对各中心样本含量、观察指标方差等进行加权，样本含量多中心权重大，而方差大中心权重小。

Logistic回归用于处理和分析中心效应另一个优点是，在回归模型中可以增加很多协变量（covariate）。

因为，影响疗效指标因素很多，例如，患者年龄、病情严重程度、是否有并发症、基线（baseline）等，用CMH方法或meta分析，一次只能对一两个协变量进行校正，而用logistic回归模型，可以在分析和处理中心效应时，对其它多个因素同时进行分析，还可以分析因素间交互作用（interaction）。

因此，logistic回归应用是非常方便、灵活。

临床研究和评价一般规律主要要素

临床研究一般规律是在临床研究过程中必须遵循共同准则，如何认识和把握临床研究一般规律，在理论和实践层面均具有十分重要意义。

笔者通过对此问题思考和在药品临床评价中体会，总结了以下临床研究和评价一般规律主要要素。

1、临床研究在药品整个研发过程中地位

勿容置疑，临床研究在药品整个研发过程中处于核心和关键阶段。

药品上市许可直接证据来自充分可靠人体研究，因此临床研究对于揭示药品特点，阐述其安全有效性，阐明病人获益和风险有着不可替代作用，对于药品注册上市有着决定性意义。

2、临床研究应该处理好主观和客观关系

临床研究中一定要处理好主观愿望和主观推论和客观数据之间关系，加强对于试验方法学评价和试验质量控制，以保证实事求是地得出客观结论。

（1）临床试验中要避免主观愿望对于试验设计和结论解释中带来不客观倾向。

不了解患者真正治疗需求，不通过探索和确证研究过程，仅追求形式上满足注册最低要求I、II、III期临床试验，主观地希望药品上市，是目前国内临床研究犯下主观主义错误思想基础。

剂量选择是临床试验中比较容易受主观愿望影响环节，有企业主观希望研究新药优于目前已经上市流通药品，因而他们可能在临床试验中通过不断提高剂量以到达优效目，而错过了病人有效和安全之间到达最佳平衡剂量，或混淆了对病人最大化治疗和最合适治疗之间界线，这种倾向在今天已经有诸多药品选择情况下越来越突出，使得药品剂量不断地加大。

在一些已经上市药品中经过多年使用后，均发现存在剂量过大问题（利尿剂在高血压中多年高剂量使用，近年才发现，利尿剂使用应该遵循低剂量原则），一定要避免主观愿望左右了对于客观事实判断，错过了本应该淘汰药品或错过药品最佳剂量。

（2）临床试验中要避免主观推论对于试验设计和结论解释中带来不客观倾向。

药品研究是一个不断寻求客观证据，证明安全有效过程，任何主观推论均需要十分慎重。

在药品研究和评价中，重客观证据，轻主观推论思想应该贯穿于整个过程中。

临床试验中，观察指标选择，结果分析解释等环节容易出现主观推论倾向，在替代终点和临床终点之间关系尚未明确建立时，从替代终点推导临床获益进行过多解释就是主观推论典型表现。

许多临床试验中（CAST试验，正性肌力药在心衰中试验等）证实了这种解释有害性。

（3）保证试验结果客观重要手段是要加强对于试验方法学评价。

试验结果客观性首先要求研究者对于每一次试验数据采集均为真实和客观，这需要研究者本人自律、独立临床监察参和、管理部门监管共同保证。

而对于试验系统本身，研究者和评价者均需要着重对方法学进行仔细评价，以避免系统误差产生，保证数据客观性。

许多试验方法如：

随机化，盲法设置、采用对照、观察指标客观化、指标测量标准化等均为保证试验结果客观重要手段，在评价中则需要对申办者宣称客观方法学进行详细评价，所宣称随机化是否真正地随机，盲法设置是否确实执行了盲法操作等等。

3、临床研究应该处理好部分和整体关系

置身于药品整个研究过程中观察临床研究在其中作用和地位，置身于药品系列临床研究开发过程中设计和理解单个临床试验在其中位置，置身于单个试验全过程中观察试验各个阶段在其中相互关系，均需要处理好部分和整体关系。

（1）临床研究和整个药品研究关系

临床研究和整个药品研究关系是部分和整体关系。

药品研究包括了化学合成、制剂学、质量控制、作用机制、药效药理学、毒理学、药动学、临床研究等诸多学科全面和整体研究，临床研究在其中虽然有着十分重要地位，但不注意处理好临床研究和其他非临床研究关系，忽略非临床研究对于临床研究支持作用，则容易产生冒进和增加患者和临床研究失败风险。

根据开发过程中不同制剂间生物利用度比较来确定不同制剂间临床研究安全有效性关系，根据动物安全性暴露程度和结果决定支持何种程度临床研究，根据动物和人体药代差异结果解释动物对人体反应推测作用，根据不同批次样品临床不同安全性反应确定药品质量控制中对于安全性指标设置和限度等等均说明临床研究和药品开发其他方面研究具有非常密切联系，割裂这种联系是混淆部分和整体在药品开发中具体体现。

（2）单个临床试验和临床研究开发总过程关系

临床研究总开发计划旨在通过系列临床研究不断揭示产品安全、有效、药代、依从性等方面特点，而具体单个临床试验作为其中一部分为整体服务。

单个临床试验设计很大程度上依赖和已经完成研究结果和总计划目标，对单个临床试验结果解释不能仅居于试验本身，要结合整体临床试验中其他试验结果，对药品临床研究总体解释必须汇集不同试验结果，特别要注意不同试验之间差别及差别产生原因。

（3）临床试验各阶段和试验整体之间关系

单个临床试验由设计、执行、分析、结论、报告等诸多环节组成，各环节之间密切联系，不可分割。

不重视彼此之间联系，可能使得一个设计良好试验由于实施中问题而不能得出结论，设计、执行良好试验可能由于分析方法错误而得出错误结论，或者由于报告质量不好而不能给读者形成整体试验印象。

（4）临床试验中需要避免以部分替代整体错误

临床试验中部分替代整体错误在抽样误差控制和结果解释中容易发生。

临床试验中抽样误差控制实际是尽可能地减少部分代替整体错误发生。

由于病人总体不可获得性，因此以抽样部分病人治疗结果以反应药物在总体病人中作用导致抽样误差在临床试验中客观存在，但统计学原理合理使用、试验严格按照计划执行、同时采用多个试验互相支持等方法使用，可以最大限度地控制这种错误发生。

相反不注意仔细地控制抽样误差，则容易犯下部分代替总体错误。

临床试验结果解释中经常犯下“以点代面”其实是以部分替代整体在结果判断中典型错误，这在研究者和评价者中均具有相当大危害。

对于适应症内某些人群建立有效性轻易地推及整个适应症人群是在有效性判断上部分替代整体典型表现（如对非小细胞肺癌有效性推论为对肺癌有效，对急性冠脉综合症病人有效性推论为对冠心病人有效，对II型糖尿病人有效推论为对于整个糖尿病人有效等等），仅根据有限安全性资料较早地作出安全性结论也容易犯下部分替代整体错误。

（仅在一般人群建立安全性资料，由于缺乏特殊人群安全性信息而推论为所有人群；仅在某一种族建立安全性信息没有充分桥接研究轻易推广到