ROC曲线的统计学实验报告要点Word格式.docx
- 文档编号:15215756
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:9
- 大小:96.26KB
ROC曲线的统计学实验报告要点Word格式.docx
《ROC曲线的统计学实验报告要点Word格式.docx》由会员分享,可在线阅读,更多相关《ROC曲线的统计学实验报告要点Word格式.docx(9页珍藏版)》请在冰豆网上搜索。
任课教师:
评阅日期:
摘要
在检验某一物质对疾病的诊断效果时,ROC曲线是一个重要的统计学分析方法。
其以真阳率作为纵坐标,假阳率作为横坐标,随诊断临界值的移动而形成一条连续的曲线。
曲线下的面积AUC是判断诊断效果的一个依据,面积越接近于1效果越好。
显著性差异可以帮助判断样本是否来自同一总体,也可以因此评价诊断方法的效果。
Abstract
Intheexaminationoftheeffectofasubstanceforthediagnosisofadisease,ROCcurveisasignificantstatisticanalysis.Itsetthetruepositiverateasordinate,thefalsepositiverateasthehorizontalaxis,andformsacontinuouscurvewiththechangeofdiagnosticthreshold.AUCareaunderthecurveisaparameterforjudgingtheeffectofdiagnosis,andthemoreitclosesto1,thebettereffectitimplies.Significantdifferencecanhelpjudgewhetherthesamplesarefromthesamepopulation,andthereforecanalsoevaluatetheeffectivenessofthediagnosticmethod.
第1章概论
1.1甲胎蛋白与肝癌
甲胎蛋白是一种糖蛋白,主要来自胚胎的肝细胞,胎儿出生后约两周甲胎蛋白从血液中消失,因此正常人血清中甲胎蛋白的含量尚不到20微克/升。
但当肝细胞发生癌变时,却又恢复了产生这种蛋白质的功能,而且随着病情恶化它在血清中的含量会急剧增加,甲胎蛋白就成了诊断原发性肝癌的一个特异性临床指标。
过去一直认为是诊断原发性肝癌的特异性肿瘤标志物,具有确立诊断、早期诊断、鉴别诊断的作用。
大量的临床却发现,部分肝硬化病人会长期出现AFP达到上千,但多年都没有肝癌的迹象;
同时发现约20%的晚期肝癌病人,直至病故前,AFP仍不超过10。
也就是说,尽管甲胎蛋白是检验肝癌的有效的指标,但肝癌患者不一定甲胎蛋白检验呈阳性(80%呈阳性),而AFP检验呈阳性的人也不一定是肝癌患者。
这就涉及到对诊断试验评价的问题,我们课程中所学的假设检验、ROC曲线绘制及AUC计算正是针对这类问题的方法之一。
1.2诊断试验的评价指标
显著性差异
显著性差异是检验假设是否合理的一个方法。
例如在本项目中,用甲胎蛋白作为肝癌的诊断指标,若这两组实际数据有显著性差异,基于此,它们所来自的各自的总体不具有显著性差异的概率p是多少?
p达到一个足够小的值时,认为总体具有显著性差异,以此说明甲胎蛋白作为诊断指标是一个有力的依据。
一般取这个足够小的值为0.05或0.01,本项目中取0.05。
ROC曲线
如上图所示,在评价诊断试验时,患者中被诊断试验正确判断为阳性的比例亦叫真阳性率(truepositiverate,TPR),也称灵敏度;
非患者中被诊断试验正确判断为阴性的比例亦叫真阴性率(truenegativerate,TNR),也称特异性;
患者被诊断试验错误地判断为阴性的比例称为假阴性;
非患者被错误地诊断为阳性的比例称为假阳率。
而ROC曲线是以灵敏度为纵轴,假阳率为横轴,通过不同的诊断临界值的移动绘制而成的曲线。
多条曲线进行比较时,曲线下的面积越大,说明诊断越准确。
将绘成的曲线与斜45度的直线对比,若差不多重合,说明自变量对因变量的判定价值很差,若越远离斜45度的直线,说明自变量对因变量的判定价值越好。
分析单个曲线时,越靠近左上角的点所对应的诊断临界值越好,例如本项目中的。
1.3项目数据:
测得正常人及肝病患者的甲胎蛋白(AFP)水平如下,分作两组(肝癌、非肝癌)。
肝癌组(17人,ug/L):
5.2,3.2,20.7,40.2,50.2,100.7,1030.2,800.7,400.5,90.2,19.3,6.2,32.1,8.4,25.3,83.8,37.4
非肝癌组(20人,ug/L):
0.8,1.5,3.2,10.7,20.8,21.4,5.2,2.3,7.2,4.3,9.2,15.1,3.4,5.1,4.3,5.6,6.2,22.3,25.2,18.2
1.检验肝癌组与非肝癌组的甲胎蛋白水平是否有显著性差异。
2.绘制用AFP诊断肝癌的ROC曲线,并计算曲线下面积(AUC),确定最优的诊断临界值。
第二章判断显著性差异
2.1正态检验lillietest
显著性差异的检验有多种方法,其中常见的t检验是针对正态分布的检验,而我们的两组数据并不能确定是服从正态分布,因此需要先进行正态分布检验。
利用Lillieforstest函数:
[H,P,LSTAT,CV]=lillietest(A);
[h,p,lstat,cv]=lillietest(B);
结果显示H=1,h=1,说明这两组数据不服从正态分布,因此不能用t检验而选用Kruskal–Wallis秩和检验
2.2秩和检验
调用Kruskal–Wallis函数
p=kruskalwallis(C,group,'
off'
);
结果显示p=3.8332e-04,p<
0.05,两组数据所来自的总体有显著性差异。
第三章ROC曲线与最优临界值
在本项目的数据中,AFP的分布范围是0.8-1030.2,那么假设临界值的范围取为0-1100;
又因数据中不个体的AFP差值最小为0.1,故取递增间隔为0.1。
用trapz函数绘制ROC曲线。
结果如下图所示。
在本项目中,最优诊断临界值可以用真阳率与假阳率之差来评定,真阳率愈高,假阳率愈低,则诊断效果越好。
程序如下:
zc=ya-xb;
max=1;
fori=1:
Len
if(abs(zc(i))>
abs(zc(max)))
max=i;
w=i;
end
end
holdon;
plot(xb(w),ya(w),'
b*'
得到的最优诊断临界值是25.2ug/L.
第四章使用SPSS
输入数据:
.
3.1正态检验
3.2显著性差异检验
用Mann-WhitneyU检验:
两组之间有显著性差异。
3.3绘制ROC曲线并计算AUC:
结果:
曲线下的面积
检验结果变量:
AFP
面积
标准误a
渐进Sig.b
渐近95%置信区间
下限
上限
.843
.068
.000
.710
.976
AFP在正的和负的实际状态组之间至少有一个结。
统计量可能会出现偏差。
a.在非参数假设下
b.零假设:
实面积=0.5
第四章结论与总结
由第一步检验显著性差异可以知道,这两组数据存在显著性差异,说明甲胎蛋白用于诊断肝癌是有一定可靠性的。
由ROC曲线计算所得的面积AUC>
0.5,并且接近于1,可知诊断效果较好。
计算真阳率和假阳率之差得到本项目中最优诊断临界值是25.2ug/L。
在本项目实践中,学习了利用MATLAB编程和SPSS软件进行统计分析,收获不少。
统计学分析的方法和思想对于科学研究有着重要的意义,值得我们继续深入学习。
参考文献
[1]宇传华《ROC分析方法及其在医学研究中的应用》
[2]ice110956博客频道《ROC曲线与AUC》
[3]维基百科《显著性差异》
[4]黑夜彩虹新浪博客《SPSS学习笔记之——两独立样本的非参数检验
(Mann-WhitneyU)》
[5]菜鸟新浪博客《利用SPSS做正态分布检验》
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ROC 曲线 统计学 实验 报告 要点