医学知识推理研究现状与发展.docx
- 文档编号:3997690
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:7
- 大小:24.09KB
医学知识推理研究现状与发展.docx
《医学知识推理研究现状与发展.docx》由会员分享,可在线阅读,更多相关《医学知识推理研究现状与发展.docx(7页珍藏版)》请在冰豆网上搜索。
医学知识推理研究现状与发展
医学知识推理研究现状与发展
知识表示是为描述世界所做的一组约定,是知识符号化、形式化、模式化的过程,主要研究计算机存储知识的方法,其表示方式影响系统的知识获取、存储及运用的效率。
然而医学数据种类繁杂,存储方式不一,电子病历格式和标准不同,经常涉及交叉领域等特点,导致医学领域与其他领域在知识表示方面有所差异,同时也给医学领域的知识表示带来极大的挑战。
早期医疗知识库运用的知识表示方法有:
谓词逻辑表示法,产生式表示法,框架表示法,语义网表示法等等。
比如,SNOMED-CT,早期的MYCIN系统,大肠杆菌数据库EcoCyc等。
随着知识图谱中知识增长、关系复杂化,这些方法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示方法,更多是作为医学知识表示的辅助或补充。
本体表示法以网络的形式表示知识,即以(实体1,关系,实体2)三元组来表示相关联的两个节点(实体),在知识图谱提出之后逐渐得到认可。
它借鉴了语义网表示法但又有所区别:
本体关注的是实体固有特征,比后者更聚焦,更深入,因而也具有更大的发展潜力。
而本体的描述语言也多种多样:
主要有RDF和RDF-S、DAML、OWL等。
使用本体表示医学术语可以提升数据整合能力:
建立强大、可互操作的医疗信息系统;满足重用共享传输医疗数据的需求;提供基于不同语义标准的统计聚合。
医学领域本体的构建,需要深入分析医学术语的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表达出来。
目前的医学知识本体库有:
医学概念知识库LinkBase,TAMBIS本体库(TaO)等等。
知识图谱的节点个数影响着网络的结构复杂度及推理的效率和难度。
知识表示学习借助机器学习,将研究对象的语义信息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知识融合和推理性能[。
低维向量表示是一种分布式表示(distributedrepresentation),它模仿人脑中使用多个神经元存储对象的工作机制,使用多维度向量表示对象的语义信息。
知识表示学习中的代表模型有:
结构化表示法(StructureEmbedding,SE),单层神经网络模型(singlelayermodel,SLM),隐变量模型(latentfactormodel,LFM),基于TransE的翻译模型等等。
这些模型考虑实体间的协同性和计算开销,用向量表示实体,再对表示实体的向量或关系进行相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为之后的知识补全和推理提供重要参考。
Kleyko等人证明了分布式表示方法表示医学图像进行分类精度能够与最佳经典方法相同;Henriksson等人对比使用多种知识表示方法表示EHR中4类记录:
诊断记录,药物使用记录,治疗方法和病程记录。
显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新思路。
1.2医学知识抽取
医学知识图谱的构建主要是从非结构化数据中人工或自动地提取实体、关系和属性。
人工提取是通过专家依据一定规则收集并整理相关信息,提取知识。
目前通过人工构建的医学知识库包括临床医学知识库、SNOMED-CT、ICD-10等。
自动提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术,从数据源中自动提取出知识图谱的基本组成元素。
自动构建医学知识库的典型例子有一体化医学语言系统UMLS。
人工提取的代价太大,知识的自动提取是目前重点的研究方向,也是将来构建知识图谱的趋势。
本节主要介绍如何自动从数据源中抽取知识和信息,包括实体、关系和属性抽取。
1.2.1实体抽取
识别文本中的生物医学实体,其目的在于通过识别关键概念进一步提取关系和其他信息,并将识别的概念以标准化的形式表示出来。
医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体。
本节将医学实体的抽取方法归纳为三类:
基于医学词典及规则的方法、基于医学数据源的统计学和机器学习方法以及深度学习方法。
1)基于医学词典及规则的方法
该方法通过人工定义规则和模式匹配生成词典或使用现有医学词典从语料中抽取医学实体,该方法是具有挑战性的。
首先,目前没有完整的字典囊括所有类型的生物命名实体,所以简单的文本匹配算法是不足以应对实体识别的。
其次,相同的单词或短语其意义可根据上下文的改变而指代不同的物体(如,
铁蛋白可以是生物物质或实验室测试方法)。
再次,许多生物或药物实体同时拥有多个名称(如PTEN和MMAC指代相同的基因)。
因此,基于医学词典及规则只在最早期被广泛使用。
Friedman等通过自定义语义模式和语法来识别电子病历中的医学信息。
Wu等人使用了CHV和SNOMED-CT两个医学词典得到了不错的实验结果。
虽然该方法能达到很高的准确度,但无法彻底解决上述问题,也过分依赖专家编写的词典和规则,无法适应医学领域词汇不断涌现的现实情况。
2)基于医学数据源和数学模型的机器学习方法
该方法通过使用统计学和机器学习方法,结合医学数据源的特点训练模型,进行实体识别。
在英文医学实体抽取方面,最具代表性的标注语料是I2B22010发布的英文电子病历标注语料。
另外,还有SemEval、NTCIR等评测,以及NCBI语料库等,都提供了英文医学实体标注数据。
目前常用方法有隐马尔可夫模型(HMM),条件随机场模型(CRF),支持向量机模型(SVM)等。
Kazama等人使用SVM模型进行生物医学命名实体识别,引入了POS,词缓存,无监督训练得到的HMM状态等特征。
该方法在GENIA语料库中准确率高于最大熵标记方法,并能较高效地应用于大规模语料集。
Zhou等人通过一系列特征训练HMM模型,包括词的构成特征,形态特征,POS,语义触发,文献内名称别名等。
其识别准确率达66.5%,在GENIA语料库中的召回率达66.6%。
综合以上方法,Chen和Friedman利用MEDLEE系统来识别与生物医学文本中与表型信息相对应的短语。
该系统使用自然语言技术来识别期刊文章摘要中存在的表型短语。
生物医学的实体识别常常可使用较小的表型相关术语的知识库。
Chen和Friedman自动导入与语义类别相关的数千个UMLS术语,如细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术语;并手动添加了几百个术语。
实验结果表明,其实体识别准确率达64.0%,召回率达77.1%。
虽然结果不高,但为之后的研究人员提供了一条可行的思路。
在医学领域,命名实体识别的痛点在于数据质量的良莠不齐以及人工标注的专业性要求高。
目前有专门研究如何降低对于数据标注依赖的研究,其原理主要是利用海量未标注数据持续提升模型性能,从小样本中进行学习,自我探索逐步学习新知识,形成一个交互学习过程。
3)深度学习方法
深度学习近年来开始被广泛应用于命名实体识别,最具代表性的模型是2011年Collobert提出的一个深层神经网络模型,其效果和性能超过了传统算法。
Sahu等人所提出的CNN与RNN级联的方法生成词嵌入特征,其结果优于目前最好的算法且不需要过多的特征工程。
在医学领域,We等人基于CRF和双向RNN生成特征,再使用SVM进行疾病命名实体识别。
目前医学信息命名实体识别任务中最主流的深度学习模型是BiLSTM-CRF模型,Jagannatha等人对比了CRF,BiLSTM,BiLSTM-CRF三种模型,以及一些它们的改进模型,在英文电子病历命名实体识别的效果,实验结果表明所有基于LSTM的模型都比CRF效果更好,并且BiLSTM结合CRF模型能够进一步提高评测结果2%-5%的准确率。
1.2.2实体抽取
本文将医学实体关系抽取归结为两类:
a)同类型医学实体层级关系抽取,如疾病的“肠胃病-慢性胃炎”等;b)不同类型关系抽取,如“疾病-症状”等。
1)同类型医学实体层级关系抽取
同类型医学实体层级关系相对较为单一,主要是is-a和part-of关系。
由于医学有其严谨的学科体系和行业规范,因此此类关系往往在医学词典、百科、信息标准中进行。
ICD-10、SNOMED等医疗词典或医疗数据库重点关注医学专业术语、受限词汇的分类和概念标准化工作,权威且涵盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可,是抽取层级间实体关系的首选来源。
针对具体的医疗词典、知识库提供的数据格式和开放API接口,可通过爬虫、正则表达式、D2R映射等技术从中抽取分层结构,抽取三元组来匹配、添加上下位关系。
2)不同类型医学实体关系抽取
不同类型医学实体间的语义关系识别大致基于两大不同数据源而实现。
一是百科或其他结构化数据源,如Medline,UMLS等;二是半结构化的电子病历。
医学实体类型相对有限(主要是疾病、症状、治疗、药品等),目前通常在两个实体间预定义好要抽取的关系类型,再将抽取任务转换为分类问题来处理。
如何预定义实体关系目前尚未有统一的标准,这取决于医学知识图谱构建过程中模式图的设置、实体识别情况、语料来源、构建目的及应用场景等,如在I2B22010评测中,将电子病历中的实体关系分成了医疗问题与医疗问题、医疗问题与治疗、医疗问题与检查三类。
近几年,Uzuner团队在句子层面抽取了六类医疗实体关系,使用实体顺序和距离、链接语法和词汇特征来训练6个SVM分类器,通过对比实验,指出词汇特征在实体关系识别中的重要作用。
在此基础上,基于Medline摘要,Frunza等抽取了疾病、治疗间的三种关系,并引入UMLS生物和医疗实体特征,取得了不错的实验结果。
而Abacha等在同样的任务中使用人工模板和SVM的混合模型,取得了94.07%的平均F值。
该研究指出,在样本数较少时,模板匹配方法起主要作用,而面向海量样本时则SVM起主要作用。
此外,在关系识别的分类方法对比研究中,Bruijn等人在I2B22010评测中对比研究了有监督分类和基于Self-training的半监督分类的表现,表明了UMLS、依存句法分析结果和未标记数据对关系识别有着显著影响。
除了预定义关系然后转换为分类任务来处理的方法,还有少量研究采用了模板匹配、统计共现等方法来抽取关系。
如在Medline摘要中通过统计基因名的共现来提取关系,并根据共现矩阵生成了关系图,或在Medline摘要中通过语法依赖树进行图的模式匹配,进而抽取因果关系。
1.2.3属性抽取
属性抽取是指对属性和属性值对(attribute-valuepair,AVP)的抽取,其中属性的抽取是指为医学实体构造属性列表,如药品的属性包括适应症、禁忌症等。
属性值的抽取是指为各实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。
常见的抽取方法包括从开放链接数据提取、从结构化数据库提取、从百科类站点提取、从垂直网站进行包装器归纳、以及利用模式匹配从查询日志中提取等。
对于医学知识图谱来说,主要通过上文提及的医学词典和主流医学站点来进行。
值得一提的是,前者关于属性和属性值对的描述相对比较稀疏(特别对于中文领域),因此需从主流医学站点进一步抽取整合。
对于AVP结构化程度比较高的网站,如维基百科、A+医学百科6等,有规整的信息框(InfoBox),可以方便地爬取识别InfoBox部分,直接提取该实体对应的属性名和属性值,置信度高,但规模较小。
而对于更多形式各异、半结构化的医药站点和垂直文本来说,通常是构建面向站点的包装器,从待抽取站点采样并标注几个典型的详细页面(DetailedPages),利用这些页面通过模式学习自动构建出一个或多个类Xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化的AVP抽取。
1.3医学知识融合
知识融合是高层次的知识组织,使不同来源的知识在同一框架规范下进行数据整合、消歧、加工、推理验证、更新等步骤7,目的是解决知识复用的问题,增强知识库内部的逻辑性和表达能力。
针对知识图谱中不同粒度的知识对象,知识融合可细分为实体对齐、知识库的融合等。
1.3.1实体对齐
医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。
医学实体在不同的数据源中存在严重的多元指代问题,例如阿奇霉素在XX百科中被称为希舒美,在A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。
因此实体对齐是医学知识融合中非常重要的一步。
实体对齐是判断多源异构数据中的实体是否指向真实世界同一对象的过程。
现有的对齐算法有成对实体对齐与集体实体对齐两类。
成对实体对齐方法只考虑实例及其属性相似度,包括基于传统概率模型的实体对齐方法和基于机器学习的实体对齐方法。
前者以Fellegi等人将基于属性相似性评分的实体对齐问题转换为分类问题的工作为基础,至今仍应用于很多实体对齐工作中;后者常用的对齐方法有分类回归树算法、ID3决策树算法、SVM分类方法、集成学习框架等基于有监督学习的方法和无监督学习下的层次图模型等基于无监督学习的方法。
集体实体对齐在成对实体对齐的基础上在计算实体相似度时加入了实体间的相互关系,分为局部集体实体对齐与全局集体实体对齐。
前者典型算法是使用向量空间模型和余弦相似度计算实体相似性,准确率不高,但召回率和运行速度比较可观。
后者通过不同匹配决策之间的相互影响来调整实体间的相似度,又分为基于相似性传播和基于概率模型的集体实体对齐方法。
基于相似性传播的方法通过初始匹配以“bootstrapping”方式迭代地产生新的匹配[。
Lacoste-Julien等人在此基础上提出的SiGMa算法更适合大规模知识库,但需要一定的人工干预。
基于概率模型的方法通过为实体匹配关系和决策建立复杂的概率模型,包括关系贝叶斯网络模型、LDA分配模型、CRF模型和Markov逻辑网模型等,可以提高匹配效果,但效率还有待提高。
当来自不同知识源的数据出现数据冲突时,需要考虑知识源的可靠性以及不同信息在各知识源中出现的频度等因素。
阮彤等人]在构建中医药知识图谱时对数据源的可信度进行评分,结合数据在不同来源中出现的次数,对数据项进行排序,并补充到相应的属性值字段中。
随着知识库规模扩大和实体数量的增加,知识库中的实体对齐越来越受到重视,如何准确高效地实体对齐是未来知识融合的研究重点之一。
1.3.2知识库融合
构建知识库时需求和设计理念不同会导致知识库中数据的多样性和异构性。
对于庞杂的医疗知识来说,当前多数知识库都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病知识库[60]、中医药知识图谱等,若要得到更完善的医疗知识图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知识和不断产生的新知识融合到已有的知识图谱中。
医疗知识图谱的构建是一个不断迭代更新的过程。
知识库融合的研究工作始于“本体匹配”,初期针对本体类别的语义相似性进行匹配。
随着知识库规模扩大和结构复杂化,类别、属性以及实体和它们之间的相互关系等也成为考虑的因素。
Suchanek等人提出的基于概率的知识融合算法PAIRS以两个知识库作为输入,能够高效地跨本体同时对齐类别、实例、属性和关系。
但PARIS需要一定的人工参与。
由于人类的精力和认知有限,自动地从Web中获取知识并进行融合十分必要。
Dong等人提出了将以消除歧义的三元组的形式从整个网络中提取事实与使用PRA和神经网络模型两种方法从Freebase图得到的先验知识融合在一起的知识融合方法,可达到自动构建Web规模的概率知识库的水准,提升了效率。
在医疗领域,Dieng-Kuntz等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。
Baorto等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到MED(MedicalEntitiesDictionary),同时建立审计流程以保证引入数据的一致性。
目前医疗领域知识图谱的融合技术虽有一些有意义的尝试,但仍需要大量人工干预,高效的知识融合算法有待进一步研究。
医疗领域的知识图谱也可以考虑采用众包的方式进行知识融合。
1.4医学知识推理
推理是从已有知识中挖掘出隐含信息,而知识推理更注重知识与方法的选择与运用,尽量减少人工参与,推出缺失事实,完成问题求解。
在医学知识图谱中,知识推理帮助医生完成病患数据搜集、疾病诊断与治疗,控制医疗差错率。
然而,即使对于相同的疾病,医生也会根据病人状况作出不同的诊断,即
医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。
传统的知识推理方法有基于描述逻辑(DescriptionLogic,DL)推理,基于规则推理(Rule-basedReasoning,CBR)与基于案例推理(Case-basedReasoning,CBR)等等。
BousquetC等人使用基于DAML+OIL描述逻辑执行术语推理来改进药物警戒系统中信号检测;ChenR等人采用RBR方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER系统则是基于CBR给出诊断结果与治疗方案等等。
传统的知识推理方法虽在一定程度推动医疗诊断自动化进程,但是也存在学习能力不足,数据利用率不高,准确率待提升等明显缺陷,远未达到实际应用的要求。
面对日益增长的医疗数据,诊断时不可避免地会出现信息遗漏,诊断时间延长等问题。
而人工智能,尤其是人工神经网络(ArtificialNeuralNetworks,ANNs)拥有从海量数据挖掘有用信息的天然优势。
ART-KNN(ART-Kohonenneuralnetwork)与CBR相结合可以提高后者在推理故障情况的效率和准确度。
神经张量网络模型(neuraltensornetworks)在FreeBase等开放本体库上对未知关系推理的准确率可达90.0%。
KaregowdaAG等人在Pima印第安人糖尿病知识库(PIDD)中使用了遗传算法(GeneticAlgorithm,GA)和反向传播网络(BackPropatationNetwork,BPN)的混合模型,诊断准确率提高7%左右。
与深度学习将知识图谱作为数据源不同,基于图的推理则将知识图谱视为图,以实体为节点,以关系或属性为边,利用关系路径来找到节点间的多步路径,PathRanking算法,PTransE就是利用这样的原理来推断实体间的语义关系。
图数据库使知识图谱能以图的数据结构进行存储,与传统数据库相比,前者在高维度关联查询的效率明显提高。
然而图数据库尚未成熟,暂无法完成太复杂的知识推理。
较为流行的图数据库有Neo4j,Titan,OrientDB和ArangoDB等。
王昊奋等人在医疗质量与患者安全辅助监控系统中,就将医疗本体的数据存放在AllegroGraph图数据库中。
与通用知识图谱相类似,医学知识图谱也还有对跨知识库知识推理、基于模糊本体的知识推理等问题的研究。
1.5质量评估
数据的质量直接影响数据的运用,质量评估是保障数据的重要手段,可以量化数据质量,筛选出置信度高的数据。
医学诊断对数据和医学知识图谱的可信度和准确度提出了更高的要求。
质量评估并不是构建医疗知识图谱的最后一步,而是贯穿在知识图谱的整个生命周期:
早在2013年本体峰会(OntologySummit2013)就对本体的生命周期的各个阶段所要进行的评估工作做了相关的说明。
目前,知识图谱/本体的评估方法可分为四大类:
基于黄金标准的方法,基于本体任务/应用的方法,数据驱动的方法,和基于指标的方法。
表1对比了这几种本体评估方法。
具体到医学领域,本体评估方法因应用场景而异:
Clarke等人使用基于任务评估方法来分析基因本体的从2004至2012年的性能;Bright等使用本体设计原则和领域专家审查意见作为指标来评估本体在抗生素决策支持系统中的效果;Gordon等通过将电子病历,诊断案例和临床实践等来构造“黄金标准”来评估,改进传染疾病本体BCIDO等。
为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。
不同的工具从不同的视角对本体的不同指标进行评估。
针对评估的侧重点,选择合适的工具才能对本体作出符合应用要求的评估。
比较常用的本体评估工具有:
ODEval,OOPS,OntoManager,Core等。
除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量,专家信息,知识库等方面进行评估。
相比通用领域的知识图谱,医学领域的知识图谱评估存在以下特殊性:
a)鉴于医学的严谨性,评估往往综合多种方法进行多角度的评估,如Bright等利用本体设计原则和领域专家审查来进行等级评估;b)往往需设置等级较高的警告(alerts),如与处方相关的警报包括抗生素-微生物不匹配警报、用药过敏警报、非推荐的经验性抗生素治疗警报、治疗方案-症状间不匹配警报等;c)除了从形式方面评价知识图谱以外,也注重于检验知识差距,因为知识的全面性和准确性将直接影响临床决策支持的置信度。
此外,医学知识图谱是融合计算机科学等众多学科的交叉学科,评价指标不能简单地照搬某个的学科的指标,而是应该综合考虑众多因素。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学知识 推理 研究 现状 发展
![提示](https://static.bdocx.com/images/bang_tan.gif)