事件关系检测的语言学资源评测及研究综述.docx
- 文档编号:11877302
- 上传时间:2023-04-08
- 格式:DOCX
- 页数:13
- 大小:31.95KB
事件关系检测的语言学资源评测及研究综述.docx
《事件关系检测的语言学资源评测及研究综述.docx》由会员分享,可在线阅读,更多相关《事件关系检测的语言学资源评测及研究综述.docx(13页珍藏版)》请在冰豆网上搜索。
事件关系检测的语言学资源评测及研究综述
事件关系检测的语言学资源、评测及研究综述
作者:
杨雪蓉
来源:
《智能计算机与应用》2014年第02期
摘要:
事件关系是一种客观存在于事件之间的逻辑关系,事件关系检测是一项面向文本信息流进行事件关系判定的自然语言处理技术。
事件关系检测的核心任务是以事件为基本语义单元,通过分析事件的篇章结构特征及语义特征,借助语义关系识别和推理,对事件关系进行自动分析与理解。
事件关系检测技术在自动文摘,自动问答,信息检索等领域有着广泛的应用。
本文首先介绍事件关系检测的任务定义、语言学资源和评测方法;然后,回顾国内外现有的主要研究方法;最后,给出这一研究的关键问题及技术难点。
关键词:
事件抽取;事件关系;事件推理;机器学习
中图分类号:
TP391文献标识码:
A文章编号:
2095-2163(2014)02-
ASurveyofEventRelationDetection
YANGXuerong,MABin,HONGYu,YAOJianmin,ZHUQiaoming
(ProvincialKeyLaboratoryofComputerInformationProcessingTechnology,SoochowUniversity,SuzhouJiangsu215006,China)
Abstract:
Eventrelationisakindoflogicrelation,whichexistsbetweeneventsobjectively.Andeventrelationdetection,asoneofnaturallanguageprocessingtechnologies,facesinformationstreamoftextsdetectingunknowneventrelations.Thekeytoeventrelationdetectionistorecognizetheeventrelationautomaticallybyanalyzingthecorrespondingdiscoursestructureandsemanticfeaturesofevents,withthetechniquesofsemanticrelationrecognitionandinference,whichtreatseventasthebasicsemanticunit.Thenotionofeventrelationdetectionhasbeenappliedtomanyareassuchasautomaticsummarization,automaticquestionansweringandinformationretrieval.Thispapermainlyintroducesbackground,definition,linguisticsresource,evaluationandmethodsofeventrelationextraction,andexploresitsfuturedevelopmenttrendthroughanalyzingcurrentresearch.Finally,thepapercorrespondinglypointsoutthecriticalissuesandthetechnicaldifficultiesoftheresearch.
Keywords:
EventExtraction;EventRelation;EventInference;MachineLearning
0引言
事件是一种描述特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”)。
文本中的事件则是这一客观事实诉诸文字的独特语用形式,多见于新闻报道、评论或博文等。
然而,自然事件的出现往往不是孤立现象,其发生与发展往往与外在的其它自然事件有着本源的逻辑关系。
例如,事件“袭击”就常常与“死亡”、“摧毁”和“伤害”事件同时出现在同一语言环境中,并且存在强烈的因果关系。
针对以上文本现象,事件关系检测是一种强调针对多个相关事件之间逻辑关系进行分析的自然语言处理技术,通过解析文本结构和语义,对文本中描述自然事件的文本片段(包括短语、子句、句子和段落)间的逻辑关系进行判定。
事件关系检测对于现有信息处理技术有着重要的应用价值,比如自动问答、自动文摘和话题预测等。
同时,借助事件的固有逻辑关系,能够推理特定事件的衍生与发展概率,从而有效辅助信息传播中话题的监控。
事件含有较为丰富的结构信息(触发词、事件元素和事件角色等),探索如何有效利用事件结构化信息和上下文环境进行事件关系检测对自然语言领域的发展具有重要的意义。
本文介绍事件关系检测的相关知识,重点论述和分析事件关系检测的任务定义及近期国内外的相关研究,并阐述事件关系检测领域面临的关键问题。
1事件关系检测研究体系
1.1事件关系定义
自然事件的逻辑关系,即事件关系,是事件之间相互依存和关联的逻辑形式,具有客观性、事实性和规律性三种主要特征。
以往的事件关系检测工作主要针对常见的事件关系类型进行研究,如时序关系(TemporalRelation)和因果关系(CausalRelation)[1,2]。
Mani[3]将事件时序关系(TemporalRelation)定义为:
在特定时间段内,同时或者先后发生的相关事件之间蕴含的关系。
在事件时序关系识别过程中,借助“相关事件对”之间的显式连接词(如“然后”、“接着”、“自从”等)和明确的时间短语辅助事件时序关系的判定。
事件间的因果关系[4][5]是指:
一个事件的发生引起另外一个事件的发生。
然而,目前的相关研究尚未形成事件关系的统一定义,因此,当前研究中提及的事件关系定义及其类别划分不能作为解释深层事件关系的核心参照标准。
已有的相关研究对事件关系进行了初步的定义和类别划分。
Allen[6]将事件的时序关系细分为13种子类关系,比如,“After”(时序“后”)关系,“Before”(时序“前”)关系,“Beincluded”(“被”包含)关系等;Takashi[7]则将因果关系扩展为4种子类型(即“因”,“果”,“前置条件”和“后置条件”);刘宗田[8]提出了一种面向事件的本体模型,将具有共同特征集合的事件归类,并从事件类的角度将事件关系的类别划分为分类关系(也称上下位关系、父子关系)和非分类关系,其中非分类关系包括组成关系、因果关系、跟随关系(时序关系)和伴随关系。
针对这一任务的研究刚刚起步,尚不深入,自然语言理解领域的篇章分析[9]能在一定程度上给予补充。
篇章分析是近几年自然语言处理领域新兴的研究热点,包含了篇章结构理解、篇章关系理解和篇章修辞理解三个主要研究任务。
其中,篇章关系理解是与事件关系检测直接相关的研究任务,研究的核心问题是判定一对论元之间的逻辑关系(如“因果”关系),而论元是一种具有完整语义并表述独立观点的文字片断,既可以是开放域中的词组、子句、句子、段落或章节,也可以是限定域(如新闻报道、评论或博文等)中的事件描述。
特别地,事件关系的解析即是事件之间关联逻辑的解析,从而,篇章关系理解为解释和辨识事件之间的伪关系提供了一条有效途径。
区别于浅层关系识别仅仅判定论元之间是否具有相关性(相关或不相关的二元判定),篇章关系理解则需额外地指定相关性的属性(即逻辑关系类别)。
针对这一研究,PDTB(PennDiscourseTreeBank,即Penn篇章树库)给予了明确任务定义,设置了全面的逻辑关系层次体系,并提供了用于评测的专业语言学资源。
但是,篇章关系着眼于篇章内部关系,事件关系却不仅仅局限于篇章内部,某些关系建立在不同篇章中的事件之间(即跨篇章性)。
并且,与篇章内部关系不同,跨篇章的事件关系往往不具有文字线索辅助关系推理。
从而,两者检测方法存在交叉,但不能绝对平行地交换使用。
1.2任务定义
事件关系检测任务包括事件抽取、事件关系关联性识别和事件关系判定三个主要过程。
1.2.1事件抽取
事件抽取将蕴含在文本中的事件信息用结构化文本片段表示,作为事件关系检测中逻辑关系分析的基本文字单元,事件抽取能够为事件关系检测提供内部属性明确的事件描述;事件关系关联性识别主要是判断两个事件之间是否具有逻辑或者语义关系,为事件之间的深层关系检测预先采集样本,是深入解析事件逻辑关系的重要前提条件;事件关系判定则是在事件关系关联性识别的基础上,判定相关联事件属于何种事件逻辑关系的过程。
事件关系检测涉及各个语言分析层面,如词汇层(分词和词性标注)、句法层(命名实体识别和语法分析)、语义层(语义分析)和篇章层(跨句的指代消解)。
事件抽取作为自动内容抽取(AutomaticContentExtraction,简称ACE)的子任务之一,旨在从含有事件信息的非结构化源文本中抽取结构化的事件描述,在自动文摘[10,11],事件抽取任务自动问答[12]以及信息检索等领域有着广泛的应用。
事件抽取能够提供事件的基本属性,并建立事件内部各组成成分之间的语义关系,从而塑造事件本质的描述结构。
而事件本质往往决定了事件与外部事件发生作用的逻辑形式,比如,仅就事件类型而言,一种“袭击”事件,往往与“死亡”或“伤害”事件相互关联,并形成“因果”关系。
因此,事件抽取是实现关联事件识别和事件关系判定的先决条件,也是事件关系检测的关键问题之一。
1.2.2事件关系关联性识别
文本中的事件往往离散分布,且具有语义或者逻辑关系的事件描述也并非两两毗邻。
信息流中的系列关联事件往往呈现一种离散分布,且与其它事件交织出现,形成关联性混淆的离散事件流。
因此,需要事件关系关联性识别预先确定事件之间是否存在关联性,识别出有关联的“事件对”,进而只针对相关联的“事件对”解析其深层次的具体逻辑关系。
无关事件的关系判定不仅冗余,并且直接影响判定过程的整体精度。
因此,针对离散事件流进行事件关联性识别,借以提取和组织关联事件,是辅助事件关系检测的关键问题之一。
马彬[13]专注于“两两事件是否具有关联性”(即相关性度量)的浅层关系识别,通过分析事件的语义依存关系和事件在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,同时采用的APCluster聚类算法,实现“两事件是否相关”的识别。
事件关系关联性识别可以借鉴和引用话题检测与跟踪(TopicDetectionandTracking,简称TDT)任务中报道关联性检测的研究方法。
一篇报道以一个核心事件为主题,同时包含多个与核心事件相关的事件,例如在“金大中获得诺贝尔和平奖”的报道中,包含“金大中演讲”,“金大中接受外国媒体采访”等事件。
报道关联性检测(LinkDetectionTask,简称LTD)的主要任务是裁决两篇报道是否讨论同一个话题,而事件关系的关联性识别定义为判断两个事件是否有关系,或判定两个事件是否属于同一个话题[14]。
基于此,可以将LTD的研究方法移植到事件关系关联性识别的任务中。
基于主题的报道关联性检测方法认为,若两篇报道描述的主题一致,则判断两则报道相关。
Leek[15]和Yamron[16]将参与检测的两篇报道分别看作一个话题和一篇报道,采用语言模型(LanguageModel,简称LM)描述报道产生于话题的概率,再通过调换两篇报道的角色分别从两个方向估计它们的产生概率,最终的相关性则依赖这两种概率分布,并采用相对熵(Kullback-LeiblerDivergence,简称KLD)[17]算法综合得到。
同样,在事件关联性检测任务,也可以借助主题信息,通过评定两个事件是否具有主题一致性,判断这两个事件是否相关。
基于聚类的报道关联性检测方法,通过聚类将关联与核心事件的报道聚在一起,认为同一类簇中的报道两两相关。
然而,这种方法不能用于事件关系的判断。
若采用该方法,对事件进行聚类,聚类结果中同一类簇下的事件属于同一话题,报道关联性的方法认为同一类簇下的事件两两相关联,而同一个话题下存在不相关的外延事件,例如“中菲黄岩岛对峙”话题下的外延事件“日本三舰访菲”和“菲香蕉被滞留”虽然关联于核心事件“中菲对峙”,但两两之间并无联系。
因此,通过单纯的面向事件的聚类方法不能实现事件关系的判断,还需要通过挖掘更多的推理信息分析事件关系。
1.2.3事件关系判定
事件关联性识别仅仅是一种浅层的事件关系识别,事件关系判定在事件关系关联性识别的基础上,分析和抽取“相关联事件对”深层的逻辑关系。
由于目前的研究缺乏对事件关系的统一定义,并且,多数研究都是针对具有某一特定事件关系类型“事件对”资源的挖掘和分析,如从互联网上挖掘具有时序关系或因果关系的“事件对”资源。
Mirroshandel[18]采用一种弱监督的机器学习方法对事件间的时序关系进行分类。
首先,从标注语料中学习通用的分类模板;然后,基于“每篇文档中只含有一种时序关系子类型”的假设,将文档按照时序关系子类型进行聚类,即将时序关系子类型一致的文档聚成一簇。
最后,在具有相同时序关系子类型的文档集簇中挖掘具有时序关系的事件信息资源。
Abe[1]提出了针对具有因果关系的“事件对”的抽取方法。
文章融合了“面向关系的基于模板”的方法和“面向槽的基于属性”的方法,对具有时序关系的“事件对”资源进行挖掘。
首先根据预定义模板挖掘具有因果关系的“谓语对”;然后利用预定义的两种“类型槽”对抽取的“谓语对”进行过滤,最后获得具有因果关系的“事件对”资源。
与Abe工作类似,Girju[19]首先从文本中查找具有关系的“概念对”,然后利用WordNet中定义的关系类型识别篇章中的显式(explicit)因果关系“事件对”,并将抽取的结果用于回答系统。
Bethard[20]在手工标注的具有时序关系和因果关系的语料上,采用机器学习(SVM)的方法对这两类事件关系(时序关系和因果关系)进行分类。
2语言学资源及评测方法
2.1语言学资源
针对事件关系检测的研究在国内外尚处于起步阶段,还未形成公认的大规模语料集。
已有研究工作[9,21]中的语料集都是针对特定任务进行独立抓取和标注,不能作为标准数据集。
Abe[1]对抓取的约500M日文句子通过依存分析[22-23],标注其句法结构,并对含有因果关系的事件实例进行了标注。
付剑锋[7]通过对收集的200篇突发事件文本进行标注,完成了中文事件语料库(ChineseEventCorpus,简称CEC)的构建。
在CEC构建过程中,除了对事件触发词(trigger)和事件要素(argument/role)进行了标注,更进一步标注了事件间的带标记/无标记因果关系、句内/跨句/跨段因果关系以及一因一果、一因多果、多因一果和多因多果关系。
马彬[13]针对“事件关系关联性识别”任务,人工收集了6个话题的新闻标题事件,平均每个话题30个标题事件。
通过三位志愿者对每个话题下的事件进行事件关系标注(二元标注:
“相关”和“无关”),最终获得2842个事件“关系对”,其中,具有逻辑关系(即“相关”)的“事件对”为811对。
由语言数据联盟(LinguisticDataConsortium,简称LDC)发布的TimeBank语料[24]搜集了来源于DUC、ACE和PropBank中的共300篇新闻报道,为事件间时序关系的研究提供了语料支持[18,25-26]。
其中,TimeBank对事件、时间、时间指示词以及事件和时间之间的连接关系等进行了标注,详细描述了事件间的时序信息。
2.2评价方法
事件关系检测判断离散分布于不同文本中的事件之间是否具有关系,并且进一步判断两个事件之间存在何种关系。
该问题的输入为事件集合,输出是有关系的事件对及其关系类型,因此,系统的性能优劣主要取决于识别出的“关系事件对”数目和正确的“关系事件对”数目,对该问题的评测是对事件外部的分析,不涉及事件内部的特征信息。
同时,在定义事件关系类型之后,事件关系判定转变为分类问题,即对事件之间属于何种具体关系类型的划分,针对这一分类问题,马彬[13]针对“两两事件是否具有关联性”的性能进行评测,首先在每个话题下得到该话题下“相关事件对”集合和“不相关事件对”集合;接着计算对应的准确率P(Precision)值、召回率R(Recall)值和F值;最后,通过宏平均计算系统的整体性能。
Mani[3]同样利用P值、R值和F值实现对事件间“时序关系”的抽取性能进行评价。
Zanzotto[27]针对人工收集的语料进行具有“蕴含”关系的“动词对”进行抽取,Zanzotto认为人工收集的语料不能反映真实语言环境中“蕴含”关系的分布情况,如果采用P值、R值和F值对性能进行评测会有一定的失真性,因此对抽取到的具有蕴含关系“动词对”集合作ROC曲线,再根据曲线的分布情况对性能进行分析。
3相关研究和关键问题
3.1相关研究
由于在自动问答、自动文摘和事件预测等方面应用需求的增加,事件关系检测逐渐成为新的研究热点。
近几年,关于事件关系检测的相关研究也已经陆续展开。
针对事件中触发词的关系研究和利用事件元素进行“关系事件对”的挖掘等为事件关系检测研究奠定了基础。
3.1.1模式匹配法
事件关系检测的主要方法之一是借助事件特征的模式匹配,比如,利用事件触发词的关系模式匹配,根据人工定义的模板,对文本中符合模板的事件关系进行抽取。
事件触发词是事件中的核心词语,直接表征事件的发生情况,是决定事件类别的最主要特征。
信息抽取(ACE)定义的事件触发词通常是动词,动名词或形容词。
事件关系检测的模式匹配方法,往往基于对事件触发词的关系研究,借助触发词间的关系,识别事件之间的关系,如下例:
(1)→cause/因果
句子(6)表示的是具有因果关系的一对事件,其中“wash”和“isclean”分别是事件“washsomething”和事件“somethingisclean”的触发词。
Chklovski等[25]利用LSP(Lexcial-SyntacticPattern,即词-句匹配模板)抽取具有事件关系的资源,并将抽取的结果整理成一个称为“VerbOcean”的知识库。
Chklovski等利用人工收集的LSP模板,抽取了六种时间关系(similarity,strength,antonymy,enablement,happens和before)的事件搭配。
人工定义的事件关系模板往往受数量限制,造成关系检测的低召回率问题。
Pantel[28]通过Espresso算法进行自动模板的构建,算法在给定少量关系实例的情况下,通过机器学习方法进行迭代扩展,最终得到大量的关系模板。
Abe[1]扩展了Espresso算法,并用其扩充事件关系模板。
由于扩充的模板具有较好的区分度,因此扩充之后不但保证了较高的召回率,同时增加了事件关系检测的准确率。
另外,由于模板的通用性较强,所以在事件关系检测的过程中会带来许多的噪音信息。
为了解决噪音信息引起的低准确率问题,Chklovski提出了一种对扩充模板进行过滤的数学模型,通过该模型对扩充的模板按照区分度的高低进行排序,过滤区分度较低的模板。
Kentaro[29]首先使用非限定分布策略挖掘具有蕴含关系(entailmentrelation)的“动词对”,然后结合Glickman[30]提出的准模板(Quasi-pattern)方法对已抽取的“动词对”进行过滤。
实验结果表明以上两种方法在一定程度上提高了事件关系检测的准确率。
同时,可以使用全监督分类的方法提高事件关系检测的准确率。
Takashi[7]利用基于SVMs(SupportVectorMachines)算法的全监督分类器对四种因果关系(即“因”,“果”,“前置条件”和“后置条件”)进行“关系事件对”的抽取。
3.1.2元素分析法
事件元素是事件的重要组成部分,事件元素给出了事件的参与信息,如时间、地点、人物等。
以事件元素为线索的事件关系检测研究大都继承了Harris[31]的分布假设。
Harris假设指出,处在同一上下文环境中的词语具有相同或相似的含义。
Lin[32]提出了一种结合Harris分布假设和建立依存树思想的无监督方法,称为DIRT算法。
算法将所有事件构造成依存树形式,树中的每条路径表示一个事件,路径的节点表示事件中的词语。
如果两条路径的词语完全相同,则这两条路径所表示的事件相同或者相关。
Szpektor[33]提出了TE/ASE算法,该方法是一种无监督的学习方法,包含两个步骤:
首先利用ASE算法挖掘相似含义的事件要素集合,然后使用模板抽取算法,收集包含这些事件要素的句子,将收集的句子作为模板进一步挖掘事件关系。
Viktor[34]提出另外一种有效利用事件属性信息进行事件关系关联性识别的方法。
该方法对具有蕴含关系的触发词标准进行了严格的限定:
1)触发词必须出现在相似上下文环境中;2)触发词对应的属性内容必须涉及相同事件元素,以此提高事件之间蕴含关系的识别精度。
该方法将满足如下条件的事件触发词作为扩展关系的检测线索。
3.1.3规则推理法
规则推理法主要通过总结类似于“if-then”的规则集合,实现事件关系的有效检测。
其中,规则的制定大多基于Allen[35]的“区间代数”法,而“区间代数”法在训练集较少的情况下存在一定的局限性。
因此,一些研究试图扩展最初的数据集,目前针对该任务的数据集合已经扩展为初始数据集的十倍。
Mani[36]利用扩展后的规则集合训练最大熵分类器,借以实现半监督的事件关系分类,实验结果显示了较高的准确率。
此外,Tatu[37]基于顺序逻辑,定义了用于事件关系判断的证明定理,由定理得到了丰富的推理规则,利用这些规则辩证地判断时序关系。
3.1.4其它
基于模式匹配的事件关系检测方法能够识别出更细粒度的事件类型。
如Chklovski[25]利用模式匹配方法识别出六种事件关系类型;Abe[1]则利用模式匹配的方法对事件因果关系进行子类型的划分和识别。
然而,单独采用模式匹配的事件关系检测方法获得的准确率较低。
所以,Abe提出一种融合模式匹配和面向事件元素过滤的事件关系检测方法,对由模板匹配得到的“关系事件对”进行过滤。
实验结果表明,融合了模式匹配和基于事件元素过滤的事件关系检测系统可以有效提升识别的准确率。
Mani[36]和Chambers[38]同样采用了融合模板匹配和基于规则的方法,实验结果表明系统的性能明显优于模板匹配和基于规则的性能。
与国外
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 事件 关系 检测 语言学 资源 评测 研究 综述