医学自然语言处理概述.pptx
- 文档编号:30787260
- 上传时间:2023-09-22
- 格式:PPTX
- 页数:33
- 大小:1.53MB
医学自然语言处理概述.pptx
《医学自然语言处理概述.pptx》由会员分享,可在线阅读,更多相关《医学自然语言处理概述.pptx(33页珍藏版)》请在冰豆网上搜索。
,MedicalNaturalLanguageProcessing,医学自然语言处理概述,医学自然语言处理的基本任务,目录,1,医学自然语言处理的基本技术,2,医学自然语言处理的典型问题,3,我院的实践与总结,4,01,医学自然语言处理的基本任务主要用途、基本任务,医学自然语言处理的基本任务,主要用途病历文本数据挖掘医疗知识库构建病历检索,NLP技术,电子病历医学文献临床指南健康档案,结构化、标准化,数据分析,统计分析机器学习,疾病诊断模式药物治疗模式预后评价模式,可分析的医疗数据,标准化的电子病历医学知识库整合后的健康档案,临床应用,辅助诊疗系统CDSS药物安全性检测医疗政策决策支持相似病历检索,应用实践,例:
可见多发结节影,大小约,1.16X0.98厘米,例:
在“肌力4+级”中“+”表示“强”,“头MRI+MRA示”中“+”表示“和”,医学自然语言处理的基本任务,例:
胃胀反酸、泛酸、返酸,例:
“无意识障碍”无|意识|障碍无|意识障碍,例:
“细菌性痢疾”细菌/n性/ng痢疾/n,名词,名词性语素,例:
可见多发结节影,大小约1.16X0.98厘米,01,06,03,04,05,02,语义分析,06,分词,01,词性标注,02,实体识别,03,实体关系抽取,05,实体标准化,04,02,医学自然语言处理的基本技术分词、词性标注、实体识别、实体关系抽取、语义分析,医学自然语言处理的基本技术,分词,分词是将一句话切分成一个个单词的过程分词工具结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功逆向最大匹配法正向最大匹配法双向匹配法基于机器学习的分词方法,例:
“无意识障碍”无意识|障碍()无|意识障碍(),医学自然语言处理的基本技术,设词典中词语长度的最大值为M,基于词典的分词方法开始,从文档末尾开始扫描,取最末端的M个字符作为匹配字段,查找字典,记录分词结果,对剩余的字符串继续重复以上步骤,匹配成功是,否,将字符串长度减少1,是剩余字串的长度为零,输出,例:
“南京市长江大桥”1.设最长词为5,2.在词典中匹配“市长江大桥”,3.匹配失败,去掉最前面一个字“市”,匹配“长江大桥”,匹配成功在词典中剩余字符“南京市”,匹配成功输出结果:
南京市/长江大桥,医学自然语言处理的基本技术,词性标注,在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动词等关键技术基于词典的标注方法先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注,基于规则的标注方法,简单处理,得到初标注结果建立转换规则,修正错误得到标注结果,例:
细菌性痢疾胆囊壁明显增厚,细菌/n性/ng痢疾/n胆囊/n壁/ng明显/a增/v厚/a,名词,名词性语素,例:
1.初标注:
“他/r做/v了/u一/m个/q报告/v”2.转换规则:
激活环境:
该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:
将该词的词性从动词(v)改为名词(n)3.得到标注结果:
“他/r做/v了/u一/m个/q报告/n”,医学自然语言处理的基本技术,实体识别医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、症状、检查、手术操作、器官部位等,1组淋巴结、2组淋巴结、3组淋巴结,关键技术基于规则的方法正则法例:
清扫第1组,2组,3组淋巴结正则表达式:
“%/d+组淋巴结”基于机器学习的方法词向量表示,将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号数学化,即用一个数学向量表示。
常用的词向量表示方法:
独热码表示、Word2vec算法例:
“乙肝”表示为000100000000,“肝硬化”表示为000000001000,医学自然语言处理的基本技术,基于机器学习的实体识别方法,例:
头颅CT检查显示腔隙性脑梗死1.人工特征标注:
头颅CT检查手段;腔隙性脑梗死疾病;2.训练:
将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量000001000000“TES”,00000000000010“DIS”3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:
平扫见右侧脑室体旁,已标注数据,人工特征标注,原始文本,训练集,构建机器学习模型,测试集,测试的未标注文本,输入,输出,机器标注结果,训练,特征提取,医学自然语言处理的基本技术,实体标准化医学实体在不同的数据源中存在严重的多元指代问题关键技术基于医学标准术语库匹配的方法医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。
训练完成后,使用向量余弦相似度计算实体相似性。
对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。
如“首都”和“北京”的语义距离要比“上海”更近,医学自然语言处理的基本技术,实体关系抽取发现文本中实体对间的各种语义关系,实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关系、基因与疾病的关系等关键技术实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类器,再用训练得到的分类器抽取测试文本中的实体关系深度学习,例如:
患者3天前受凉后出现咳嗽、咳痰,高血压病史40年,口服厄贝沙坦控制可,诱因,医学自然语言处理的基本技术,基于深度学习的实体关系抽取,输入层,编码层,卷积层池化层输出层,
(1)输入层:
需要判别关系类别的实体文本
(2)编码层:
预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为k维的词向量,因此对于长度为n的一句话则可用维度为n*k的矩阵(3)卷积层:
设计一个过滤器窗口W,其维度为hk,h表示窗口所含的单词个数,不断地滑动该窗口,每次滑动一个位置时,完成非线性激活函数的计算(4)最大池化层:
为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:
通过向量映射,得到待预测的类别结果,医学自然语言处理的基本技术,语义分析,在词的层次上,语义分析的基本任务是进行词义消歧在句子层面上是语义角色标注在篇章层面上是指代消歧,也称共指消解基于机器学习的消歧方法有监督:
通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型无监督:
使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义聚类算法,例:
病毒(计算机病毒、生物病毒)打球、打电话、打毛衣,医学自然语言处理方法总结,基于词典和规则的处理方法词典匹配正则表达式基于统计的处理方法支持向量机(SupportVectorMachine,SVM)隐马尔可夫(HiddenMarkovModel,HMM)条件随机场(ConditionalRandomFields,CRF)长短时记忆网络(LongShortTermMemory,LSTM)卷积神经网络(ConvolutionalNeuralNetwork,CNN)两者融合的方法,03,医学自然语言处理的典型问题,医学自然语言处理的典型问题,问题一有瑕疵的或不规范的输入,不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临床医生、病人等)在表达相同或相似概念时其描述方式多种多样,例:
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸,例:
冠心病、冠状动脉粥样硬化性心脏病、CAD,上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化,医学自然语言处理的典型问题,解决方法采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后进行匹配,采用机器学习方法,基于向量空间模型将实体表示为词向量再学习向量之间的相似性关系,例:
冠心病、冠状动脉粥样硬化性心脏病、CAD,例:
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠状动脉支架置入术、冠状动脉支架植入术胃胀反酸、泛酸、返酸,冠状动脉粥样硬化性心脏病,2型糖尿病,冠状动脉支架置入术,胃胀反酸,医学自然语言处理的典型问题,问题二病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果,解决方法正则表达式实体关系抽取问题,判断概念是否具有“否定”的上下文环境,例:
“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”,实体识别,确定实体关系,共现法寻找距离相近的实体,抽取目标实体前后出现的否定词,医学自然语言处理的典型问题,问题三,医学领域相关实体和实体之间的关系比较复杂,例:
蛋白质之间相互作用关系、药物之间相互作用关系、药物疾病对应关系等,解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法,建立学习模型,识别疾病药物之间的关系相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式,例:
既往史:
否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg左右,属于实体关系抽取的一类典型问题,例:
送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1),医学自然语言处理的典型问题,问题四电子病历中出现大量长句,需要做语义识别,解决方案对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络,将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成分与上下文的关联度,例:
食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌,肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经,检出之上下切缘及送检(食管切缘)均未见癌,医学自然语言处理的典型问题,难点问题相同的医学问题、不同的研究目的,提取规则不一样例:
糖尿病提取药物史降压药、降糖药,从文本中直接抽取实体即可,侵袭性真菌病提取抗菌药物史病前30天内使用抗菌药物、长期(超过2周)使用抗菌药物不是在文本中直接体现,需要添加复杂的语义分析病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻辑关系例:
入院记录会描述患者病情的发展情况,包含了大量时间信息,以及前后、因果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,在当地医院住院手术治疗,出院后因左腕疼痛辗转于各诊所肌肉注射或静脉滴注各种抗生素(隔2-3天应用3-5天),达3个月;于2012年8月出现高热,口腔内白斑,体温达40,伴发冷,在某医院诊断为“真菌感染”,打针治疗后症状无明显好转,后转至某医院呼吸科,诊断为“成人Still病”,接受“氟康唑、免疫球蛋白、甲泼尼龙40mg1/日”等治疗,体温降至正常,出院口服“甲泼尼龙6片1/日,硫酸羟氯喹0.2g2/日;来氟米特20mg1/日”。
于2013年12月出现左侧髋关节疼痛,下蹲困难(蹲起时自觉双侧腘窝疼痛),于某医院行髋关节核磁检查,示:
左侧髋臼信号异常并左侧髋关节腔积液,04,实践经验总结,病案纸,解放军总医院电子病历文本结构化进展,全院电子病历文本清洗治理原始病历零散的文件存储、纯文本格式、信息不易查询提取清洗治理后的病历数据库形式存储、半结构化格式、显著提高电子病历利用率,患者基本信息,患者ID,入院记录,现病史个人史家族史,主诉既往史婚育史体格检查,首次病程记录,病例特点诊疗计划,拟诊讨论,日常病程记录,查房记录,病历数据库,存储查询提取统计,解放军总医院电子病历文本结构化进展,全院电子病历文本清洗治理平台界面展示,解放军总医院电子病历文本结构化进展,基于专病的病历文本结构化处理平台不同病种需要提取的医学问题有较大差异,需要个性化定制例:
胃癌手术报告需要提取:
切除范围、根治度、消化道重建方式等肺癌手术报告需要提取:
切口类型、切除部位、是否可见胸腔积液、胸腔粘连等,1建立标准化的语料库,2,辅助建立专病数据库,3建立专病知识图谱,4数据挖掘、辅助临床科研,胃癌手术报告、病理报告、病程记录的结构化处理,肺癌手术报告、病理报告、CT报告的结构化处理,乳腺癌病理报告、超声报告的结构化处理,侵袭性真菌病的入院记录结构化处理,解放军总医院电子病历文本结构化进展,病历文本结构化平台,AI辅助的可配置规则抽取框架,基于深度网络的信息抽取模型,医疗文本结构化平台可定制抽取字段、精细化要素提取标准化归一映射、智能化技术框架,解放军总医院电子病历文本结构化进展,AI辅助的可配置规则抽取框架,高效地应对个性化提取需求,AI预处理深度理解医疗文本要素及属性分析,定位候选句,字段值抽取归一化/标准化,字段配置,病历相似句扩展,同义要素扩展,医生,AI辅助,AI辅助,指导,解放军总医院电子病历文本结构化进展,基于深度网络的信息抽取模型,精准理解病历文本基于序列到序列的深度神经网络模型,不但可以在原文中精确定位结果,还可以对文本进行推理总结,病历文本,胃小弯及胃体后壁溃疡型低分化腺癌,肿瘤大小约为881.8cm。
癌组织侵及胃壁全层、神经伴脉管内癌,栓,再取上、下切缘及送检(食管下结果归一切缘)均未见癌。
拷贝结果,拷贝结果,总结与展望,医学自然语言处理技术的发展水平在词法分析层面,医疗实体识别以及实体关系的抽取技术已经比较成熟,在此基础上可实现电子病历文本数据的特征提取、病历检索例:
检索条件:
既往病史中有肺结核的患者特征提取需求:
提取肺癌患者的吸烟史、饮酒史等在语义分析层面,NLP技术还无法实现完全理解病历中隐含的知识,难以像医生一样去理解病历例:
检索条件:
提取长期使用抗菌药物史、化疗后肿瘤尺寸变小的患者“长期使用抗菌药物”“肿瘤变小”不是在文本中直接体现的,需要通过复杂的语义理解去判断难以利用一种通用模型解决所有的医学问题现阶段医疗文本结构化应用模式,大部分是带着医学问题去抽取知识,很大程度上依赖于医生对医学问题的归纳和总结相同的医学问题,在不同应用场景下,知识抽取模型不同,总结与展望,自然语言处理未来在医疗行业的应用模式通用化模型与个性化定制相结合的医疗文本结构化工具通用化模型解决医疗实体识别、实体关系抽取的问题个性化定制解决特定条件、特定病种的信息抽取问题,辅助临床科研人员、数据分析人员提取文本特征,进行数据挖掘智能化的病历检索系统支持多种形式的高精度检索,谢谢聆听!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 自然语言 处理 概述