011GP10A使用ROC曲线评价临床试验准确度中文Word下载.docx
- 文档编号:22484683
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:20
- 大小:44.71KB
011GP10A使用ROC曲线评价临床试验准确度中文Word下载.docx
《011GP10A使用ROC曲线评价临床试验准确度中文Word下载.docx》由会员分享,可在线阅读,更多相关《011GP10A使用ROC曲线评价临床试验准确度中文Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
8
4.4检验研究受试者8
4.4.1进行伪装研究8
4.4.2一致样品9
4.4.3检验模式9
4.5评价检验的临床准确性9
4.5.1诊断或临床敏感性和特异性9
4.5.2ROC曲线10
4.5.2.1概述10
4.5.2.2生成ROC曲线;
连接11
4.5.2.3ROC曲线定性释义12
4.5.2.4单个ROC曲线下的区域13
4.5.2.5多种检验的统计比较13
4.5.2.6其他ROC统计14
4.5.2.7ROC13曲线的优点14
4.5.2.8ROC曲线的缺点14
5ROC曲线的使用:
临床实验室文献中的案例14
6总结15
批准指南
1范围
本指南概述设计一个先期的研究来评价临床实验室试验内部诊断准确度的步骤和原则,例如,它的基本能力是正确区别在健康的供选择几种状态之间的灵敏性和特殊性。
对每一步骤都做了详细的描述,包括它执行的原理和建议。
相同的概念也可以应用到已经产生的数据的重要评价之中。
2术语
临床准确度(诊断准确度):
诊断试验在两个或更多的临床状态中的区别的能力,例如,区别风湿性关节炎和全身红斑狼疮,区别风湿性关节炎和“无关节疾病”,区别慢性肝炎和“无肝部疾病”,区别风湿性关节炎和其他关节疾病的“混合疾病”。
临床状态:
一种健康或者疾病的状态,是被诊所或其他独立参考标准确认过的。
关于临床状态的例子包括“未发现病症”,“病症1”(1代表第一个被考虑的临床状态),“病症2”(2代表第二个被调查的临床状态),等等。
判断临界值(也是判断水平,cutoff(截断)):
一个试验分数被用作是“阳性试验”的判断标准。
所有在其中或者超过这个试验分数的被认为是“阳性的”;
不在其中或未达到分数的被认为是“阴性的”。
在一些案例中,低的试验分数被认为是“异常的”,例如,L/S比例或者血红蛋白。
在另外一些案例中,高的试验分数被认为是“异常的”,例如,心肌酶或者尿酸浓缩物。
诊断试验:
测量或检查,将病人分成特定的组或者临床状态。
有效性:
数据的实际有效值,例如,临床目的的有用性。
假阴性结果(FN):
受试者出现阴性试验结果,发现疾病或病情。
假阳性结果(FP):
受试者出现阳性测试结果,未发现疾病或病情。
假阴性分段(FNF):
患有疾病的受试者的比例,但是对有疾病的受试者测试结果为阴性;
FN/(FN+TP);
同(1-敏感性)。
假阳性分段(FPF):
未患疾病受试者的比例,但是对无疾病受试者的测试结果为阳性;
同(1-特殊性)。
流行率:
对特定人群,特定临床状态的预测可能性;
在给定时间点,感兴趣人群的疾病发生频次。
受试者工作特征曲线(ROC):
测试结果的图形描述,代表真阳性分段(敏感度)和假阳性分段(1-特异性)之间的关系。
通常,真阳性分段绘制在垂直轴上,假阳性率(或,真阴性分段)绘制在水平轴上。
临床准确性,也就是敏感度和特异性,显示的是全光谱决断水平。
敏感度(临床敏感度):
在疾病测试中为阳性结果;
真阳性分段;
在特定判定临界值正确检测疾病的能力。
特殊性(临床特异性):
在健康测试中为阴性结果;
真阴性分段;
在特定判定临界值正确检测无疾病的能力。
研究组:
一组感兴趣的临床定义人群,代表一组样品。
感兴趣的人群是用于测试评价的目标组,将其分别应用到实践当中。
研究的亚群被定义为属于特殊的临床状态,适用于标准(见正文)。
真阴性结果(TN):
受试者无疾病,测试结果为阴性。
真阳性结果(TP):
受试者患有疾病,测试结果为阳性。
真阴性分段(TNF):
无疾病受试者比例,对于无疾病的受试者来说测试结果为阴性;
TN/(TN+FP);
特异性。
真阳性分段(TPF):
患有疾病受试者的比例,对于患有疾病的受试者来说测试结果为阳性;
敏感度。
3.1定义临床问题(见4.1部分)
使用以下程序定义临床问题:
(1)描述受试人群的特性。
(2)描述所做的管理决定。
(3)在做决定时,定义检测的任务。
3.2选择代表研究样本(见4.2部分)
使用以下程序选择代表研究样本:
(1)预期选择统计有效样本,包含在上面3.1中提出的代表群体的受试者。
(2)选择独立与测试结果的样本。
(3)计算数据不全的病体数量。
3.3建立每个受试者的“真实的”临床状态(见4.3部分)
使用以下程序建立每个受试者的真实的临床状态:
(1)对于每个相关的临床状态采用独立的外部标准或者诊断真实性标准,这样可以尽可能的正确归类每个受试者,也可以建立在严格诊断工作组或者临床过程或结果评估的基础上。
(2)不使用被评价的试验来区分受试者,例如未知试验结果,不包括标准中的试验结果。
3.4检验被研究受试者(见4.4部分)
使用以下程序检验被研究的受试者:
(1)在未知受试者分类的情况下进行检验。
(2)在比较多个检验时,对所有受试者进行检验,最好以批的模式,而且在临床过程使用同样的点。
3.5评价检验的临床准确性(见4.5部分)
使用以下程序评论检验的临床准确性
(1)描绘受试者工作特征曲线图来评价检验准确性。
(2)在ROC曲线和分析的基础上比较可选择的检验。
4设计基本的评价研究
4.1定义临床问题
实验室检验需要提供对治疗病人有帮助的信息。
通常情况下会有一系列的临床问题。
定义临床问题是最基本的要求,因为它提出了特定病人的护理问题,并用评价法处理。
CK-2浓缩物可否用于区别心肌梗死(AMI)和其他原因导致的胸痛之间的不同,病人是否有心肌梗死的病史并曾被急救过?
几个检验中,在区别乳腺癌的检验时,一些受试者对特定化学治疗有反应,另外的一些没有反应,最好的区别方法是什么?
在一些检验中,在之前尚未发现贫血的老年病人中,在区别铁缺乏症和其他导致贫血的原因时,那种方法更准确?
一个给定的检验可能因不同的临床设置而不相同。
实施良好的试验可以帮助区别表面看起来健康的未患有前列腺疾病的年轻人和患有前列腺癌的中年之间的不同,但是可能对区别患有良性前列腺疾病的中年人和患有恶性前列腺疾病的中年人之间的不同的帮助不大。
后者的差别显示出适用于中年人症状的相关临床问题,而前者的差别显示出不同的项目,可能与临床根本不相关。
通常情况下,临床问题或目的包含表面相似的受试者群组(在检验前使用评价法获取信息的基础上的群的集合),也应该进一步细分为相关的管理亚群。
检验的结果应该指出个体受试者是属于哪个管理亚群的。
例如,对于使用化学发光免疫法(RIA)检验血浆血管紧张肽-转换酶活性的试验预计可以回答以下问题:
“在患有高血钙的病人中,谁患有结节病?
”表面症状相似的病人有高血钙的常见症状。
检验帮助其分为亚群:
患有结节病的分为一组,由于其他原因导致高血钙(例如恶性肿瘤或甲状旁腺功能亢进)的分为另外一组,原因不同,使用的管理方法也不相同。
对于前面提到的案例,必须小心定义目标群,包括性质/种类,延续时间和质量条件的重要性。
例如,这可能包括在相距一周时间里血清钙的浓度大于“X”的两种情况,年龄差距,性和其他表象(例如,胸部X光),对于在群组中包含或不包含受试者的这些要求。
4.2选择代表研究样本
清楚的定义临床问题的过程实际上是为识别检验与评价相关的群来服务的。
在这些临床群体中,选择用于研究的受试者。
这些受试者应该选择作为可以代表临床感兴趣的大量的群体,并得出关于它的结论。
结果的意义是建立在相关的群的识别和选样的关注程度之上的。
所得的结果可以从问题的定义和选取受试者研究的性质中得出。
在通常的实验室实习中,采用或建立相关间隔是很常见的,经常可以用来辅助解释病人检查结果。
这些间隔常常从以下检验结果中搜集数据:
献血者,实验室工作人员,学生或其他门诊患者,“健康的”志愿者。
注意:
这个群体可能和本指南中描述的诊断准确性评价法不相关。
在将评价作为检验准确度的筛选工具时,应使用筛选群体代表样本。
例如,考虑到结肠癌的粪便隐血。
如果检验的目的是评价在无特殊症状的中年受试者中发现隐形癌症,样本应该全都在这种群体中选取。
在无癌症人群、健康的志愿者和确认已经患有结肠癌的人群中选择样本,则是不适合的。
同样的原则也适用于在检验,但不是在筛选时,而是在区分有症状的病人间的疾病状态的情况下。
如果是检验有病史和症状的急性胰腺炎病人,指出其患有胰腺炎的可能性,样本的选取应该包括这类人群。
因为检验不是为了区分健康的志愿者和确认有胰腺炎病人之间的区别,所以研究使用这类的受试者是不合适的。
所得出的结论也不符合试验目的。
4.2.1选择偏差
为避免选择偏差可能破坏研究有效性或者提出的相关问题,请慎重选择受试者。
例如,特别是对于那些隐性的症状或早期的受试者,使用确认的或临床症状明显的病人样本。
同样的道理,使用年轻的健康志愿者的样本对于检验预期的应用来说是不适合的。
这里使用的测量方法是受目标群体和样本的疾病光谱的影响的。
受试者预期适合的重要性将在文献2-6中详细讨论。
4.2.2回顾研究
不允许检验结果或检验程序影响受试者的选择。
排除未预料到的、模棱两可的或不一致的受试者的结果可以让检验更加有用。
回顾研究只得出病人的检验数据报告,不包括病人因为不同原因而未成功检验测试,从而扭曲了检验的绩效。
4.2.3检验前的选择
在检验结果直接或间接影响到受试者的选择时,在检验开始前选择受试者,作为预防偏差的措施。
为预防任何偏差,筛选符合定义的所有的感兴趣的临床组,直到获得预定数量的受试者。
一旦选取,不应放弃研究的受试者。
如果一些病人没有完成研究(因为技术错误,分析干扰,死亡或未跟上进度的原因),在最终的分析结果中,也应包含他们的数据信息。
因丢失受试者导致不确定性和可能的偏差,必须考虑和报告体现研究结论中。
4.2.4流行疾病
这里描述的途径是独立于流行疾病的,所以不必须有反应实际流行的样本。
有大约相当数量的感染疾病的受试者和未被感染的受试者是可取的方式。
4.2.5商讨统计
在计划定义,尺寸和研究群体的选取时,建议与专业的统计学家商讨,这可以应用于检验性能的重要评价。
样本尺寸应适合评价目标,提供有效的ROC曲线和检验作比较。
在这个不可能的时候,应清晰描述选择的标准。
4.3建立每个受试者的“真实的”临床状态
对于临床准确性的客观评价需要比较结果,结果是由一些独立的,真实的外部定义的检验机构提供的。
以上定义的临床问题,确认了“真实”(健康的状态)的分类是什么,与评价方法有关。
标准适用于将单个人归类到他们各自的真实组中。
标准可能包括活体检视数据,外科或尸体剖检发现数据,显像数据和长期跟踪数据。
可惜的是,归类单个人样本到有差别的组中可能导致运行有缺陷。
标准可能不可信和/或产生偏差6.其中一些可能不会清楚的适合定义的健康状态。
Metz建议说“真实是一个哲学上的概念,当然,如果比评价法的诊断体系(检验)更可信赖的话,真实的标准对现实的目的来说是充分的。
”
4.3.1评价的有效性
在评价检验临床准确性时,评价的有效性是受准确性的限制的,受试者是用准确性来归类的。
一个完美的检验可能运行的很简单,因为没有正确的对每个病人制定其“真实性”,因此,检验结果和表面看起来的“真实”诊断是不相符合的。
在另一方面,当检验结果与不正确的分类一致时,检验看起来运行的比实际“更好”。
因此,尝试着尽可能的区分单个人是很重要的,同时也要考虑到由于区分计划导致的结果上可能的偏差。
与真实性分类越接近,在评价任何检验的时候的表面现象的偏差会越小。
4.3.2真实临床亚群
对于评价研究来说,通常的临床诊断并不适当。
决定病人的真实临床亚群可能需要用到如下的程序,活体检视,外科考察,尸体剖检,血管造影术或长期跟踪,对治疗和临床结果的反应。
尽管这些程序对评价可能造成经济上的成本增加,但是小成本检验,如果其错误结论导致不合适的检验的使用或者不适合的病人的管理,在长期来看,通常临床评价法的花费将更大。
4.3.3分类途径
在很多临床情况下,获得独立的,正确的病人“真实性”临床条件分类是很困难的。
在识别真实的健康状态时,形成了几种策略来处理这些难点。
一种策略是按照测量临床结果7来定义诊断问题。
第二种方法是使用达成几种共识,多数原则或专家回顾来减少错误倾向识别过程8。
第三种解决方案是对几种正确检验做比较的假定,即假定在未知混合组中有患病和未患病的人群,然后去估计这个混合组的参数和其他参数9.第四种方法,不是定义分配每个这样的病人到其中的一组中去,例如“患病的”或“未患病的”分配到0到1之间的每个值,并与(受试者)假定相对应,这个病人属于这个患病组(这可以完成逻辑退化)。
因此,在组的分配是模棱两可的情况下,没必要将数据从这个模糊的案例中除去。
尽管诊断分类经常预示并发症和治疗反应,但是对于检验来说最好的评价是关于其指出临床反应或结果的能力,而不是分配诊断的能力。
例如,可能将疑似患有前列腺疾病的病人归类到那些患有癌症组里面,未患有癌症组里面是建立在活体检视结果的基础上的。
因此,将他们按照病人明显疾病症状来区分将更有作用。
如果评价的目的是假定血清制造者在区别需要干涉的病人和不需要干涉的病人方面的准确性上,对于知道哪个病人会进一步发病比知道哪个病人疾病有组织学证据更加恰当。
这个案例是真实的案例,它出现在原始的临床创立任务之前,是在评价法检验的技巧上的。
因此,缺少及时定义诊断类别不是阻止检验临床准确性的必要条件。
事实上,在建立正确的诊断比较容易的时候,关于临床过程相关联的检验结果可以比单独研究病人诊断关联结果更加能提供有用的临床评价。
4.3.4独立分类
为避免在评价检验临床准确性时的偏差,真实的临床状态应该不受调查结果或使用对比的影响。
很明显,新的检验不应该包含在区分受试者的标准中。
例如,如果RIA的CK-MB是为诊断AMI来评价的,因为区分研究受试者,CK-MB的电泳技术或者免疫抑制作用都应被包含在“金标准”组里面。
进一步说,如果CK-MB试验的性能是为了直接与LD-1/LD-2同工酶率做比较,则LD同工酶结果不应被包含在诊断标准里,因为表面性能将会在任何检验中有偏差,它也是“真实标准”的一部分。
为确保分类不受评价法下检验结果的影响,需要做伪装,也就是未知检验结果。
进一步说,归类每个病人到管理亚群的标准要尽可能的客观。
在归类是建立在临床或形态学受试者评价的基础上时,例如放射性核素或者骨髓涂片,对于每个病人的判断应当反应专家的一致意见,这些专家对每种伪装材料的解释及其相互间的独立性。
4.4检验研究受试者
4.4.1进行伪装研究
使用评价法进行检验的人应该做伪装,也就是说,未知受试者的临床状态。
理想的情况是,检验应该在临床问题得到回答之前来做。
已知临床问题的结果可能导致微小的偏差。
不适合临床状态的结果可能在假定技术困难或干扰因素的基础上选择性的重复或排除。
4.4.2一致样品
在比较两个或更多检验时,检验的受试者和样品的一致性是很重要的。
不正确使用这些受试者来评价每个检验可能导致因为样品错误引起的结论错误。
进一步说,细小的偏差可能影响不同组的受试者的选择。
因此,在检验表现上显示的表面不同可能反应的是检验组的受试者的不同。
如果一些受试者有晚期的,假定,更加容易发现的疾病,而只做了一些检验,这些检验相对于其他检验来说灵敏度更高。
相反,受试者疾病轻微,可能很难发现,这将可能减小在这些受试者身上的检验灵敏度,这是与使用受试者检验相比较而言的。
对所有受试者做全部检验确保灵敏度和特异性的不同,而不仅仅是诊断标准适用范围的不一致。
简单的说,在病人患病不同的时间,如果两个或者更多的检验可以适用于相同的受试者,这些检验的一个明显的优势是在易检验的疾病中,这个事实是成立的。
因此,所有的检验都应在每个受试者患病的相同阶段来进行。
对于所有的检验使用区别样本,避免以上的失误。
4.4.3检验模式
在同一批次分析所有样本,在可能的情况下,建议减少分解的分散干扰。
因此,注意通过特殊存储条件保持分析物的稳定性。
4.5评价检验的临床准确性
通过检验临床准确性来评价检验的性能,也就是说,其有能力将单个人归类到两个亚群组里,例如,一个亚群组的人患上某些疾病(因此需要治疗),第二组未感染疾病。
如果两个检验组的检验结果没有重叠,则这个检验可以正确鉴别受试者并区别两个亚群。
然而,如果两个亚群的结果有重叠,说明检验鉴别能力不强。
在其他的案例中,希望有一种方法来代表和测量来区别准确性。
4.5.1诊断或临床敏感性和特异性
一项检验区别或认知已经患病的能力就是其诊断敏感度;
其区别没有患病的能力就是其特异性。
两者都是测量准确度并可以用百分比、比率或小数部分来表示。
完美的测试是达到了100%或1.0的敏感度和特异性。
然而,检验很少是完美的,通常情况下,两者不会同时达到100%。
诊断敏感性(真阳性比率或部分)定义如下:
或
(1)
这里指的是受试者确实感染了疾病并显示阳性结果
诊断特异性(真阴性部分)定义如下:
或者
(2)
这部分是真正未感染疾病的人,检验结果为阴性。
通常情况下,检验有其特殊的敏感度和特异性。
因此,对于一个检验来说,没有单一的敏感度和特异性;
或者说有连续的敏感度和特异性。
改变判定临界值(或判定水平,正常上限,置信区间值或参考值),可以得到敏感度值的范围在0到100%区间,每个值都有一个对应的特异性。
对于每个用于区分受试者是阳性或阴性的判定临界值是建立在检验结果的基础上的,敏感度和特异性只有一个单一连接。
这些参数是成对出现的,检验的准确性是由发生的光谱来反应的(特异的检验不都是成对出现的)。
在任一检验中,两组受试者的结果分布重叠,在敏感度和特异性之间不可避免的存在“trade-offs”。
因为判定临界值在观察区间不同,敏感度和特异性将向相反的方向移动。
一个值增大,则另外一个值减小。
对于每个判定临界值来说,都有成对的敏感度和特异性对应。
哪个值描述了检验的正确性?
所有的都能。
只有敏感度/特异性组的全部光谱才提供检验准确性完整图示。
在图示1中(第13页),在临界值是6μg/L时,CK-BB显示的敏感度是100%或1.0。
所有的50受试者的acutemycocardialinfarction(AMI)都正确的归类为“阳性的”或“受感染的”。
同样的,相同的临界值,20个受试者中的9个未患有AMI的都被错误的归类为阳性,所以特异性只有55%(55%真阴性,45%假阳性)。
然而,在判定临界值是12μg/L而不是6时,敏感度降到96%(0.96),因为在50个受试者中只有48个的AMI被正确的归类为“阳性”。
进一步说,因为所有的非-AMI受试者现在都被正确的归类为未受感染,特异性增加到100%(100%真阴性,0%假阳性)。
因此,在临界值由6μg/L变为12μg/L,导致了敏感度的降低和特异性的增加。
注意敏感度全部使用感染(AMI)的受试者来计算,而特异性是用未受感染的亚群计算的。
进一步说,检验在一个临床条件下只有一组敏感度-特异性,在另外的一个临床条件下,使用不同组的受试者,产生不同组的敏感度-特异性。
如果CK-BB是在疑似患有AMI的postoperative的病人中检测,而不是在急诊部门的病人检测(见第13页,图示1)敏感度-特异性组将会不同。
在检验中的光谱对决定了其特殊临床条件下的基本的准确性。
4.5.2ROC曲线
4.5.2.1概述
在敏感度和特异性间的trade-offs光谱用ROC曲线14来表示很方便。
ROC方法理论是建立在统计决定理论的基础上的,在电子信号探测方面得到了发展,产生周围的症状,在20世纪中叶使用了雷达接收器6。
ROC类型曲线在1950s使用,用来决定自动papsmear分析仪的性能,减少smears和无malignantcells之间的不同。
ROC曲线使用特定的感染的和未受感染的样本组,用图解演示出检验性能的全部光谱。
它就是一个“检验性能曲线”,代表检验基本临床准确性,使用从全部的获得结果中的选择的连续的变化的判定临界值画出所有敏感度-特异性组的曲线。
曲线的重要部分在于判定临界值在范围内变化,这个范围是感染和未受感染受试者重叠的结果值。
在重叠区域之外,全部的敏感度或特异性是1.0并且不变化;
在重叠区域内,没有一个值是1.0,而且两个值都随着判定临界值的变化而变化。
在Y轴上绘制敏感度,或者真阳性部分(TFP)。
在X轴上,绘制假阴性部分(FPF)(或1-特异性)。
这部分是真正受感染的受试者,测试结果为阳性;
因此,它就是特异性测量。
另外的选择是在X轴上直接绘制特异性(假阴性部分)。
这个值在从左到右的“抛物线”,给出上面图示的镜像。
因此,如果在X轴从右到左(不是从左到右)标记0到1.0,曲线不会翻转的。
如上所述,对于敏感度和特异性来说,TP和FP部分是随着判定临界值变化连续变化的,并且是的重叠结果范围之内的。
每个判定临界值都有一组TP(敏感度)和FP(1-特异性)部分与之对应。
比例也取决于临床设置,也会受所选择的研究组影响。
FP部分是受研究组中未被感染的受试者影响的。
例如,如果未受感染的受试者都是健康的献血者,没有任何症状,检验结果的FP部分会比较低,这是与感染的受试者做比较而言的,感染的受试者是指事实上已经患病的人。
同样,TP部分也取决于所选择的研究组,用于发现癌症的检验可能TP部分值较高,在适用于有活性或晚期疾病的病人比病情稳定或限度的病人方面,对于前者的检验很有效。
在研究数量时,TP和FP部分的相关性是一个原因,这个原因是ROC曲线必须因为每个临床状态而生成的。
在ROC曲线中,敏感性和特异性的不同组合,对于检验来说在给定设置的条件是很容易显现出来的。
同样明显的是,“trade-offs”也会影响检验的判定临界值。
在判定水平改变时,敏感度变化是以特异性的变化为条件的,或者相反。
这个可以直接从曲线中看到。
注意,尽管已知判定临界值,但是它并不是曲线的一部分。
因此,选择的判定临界值可以在对应的敏感度和特异性出现的交叉点显示出来。
由于真、假阳性部分都是完全独立计算出来的,使用的是两组不同亚群(感染的,未受感染的)人的检验结果,ROC曲线是独立于疾病样本和感兴趣的条件的。
因此,如上面提到的,TPFs和FPFs,ROC曲线仍然是受样本中受试者类型(光谱)的影响的。
ROC曲线提供了一般的,全球的性能评论,但是并不是由一个或多个已知的敏感度-特异性提供的。
使用检验性能数据绘制的ROC曲线也可以用于在检验的特定临床条件下选择判定临界值。
检验性能的几个元素来决定对于可能的敏感度-特异性组(对应的判定临界值)来说,哪个更适用于给定病人
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 011 GP10A 使用 ROC 曲线 评价 临床试验 准确度 中文