基于知识的智能问答核心技术.docx
- 文档编号:10576361
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:7
- 大小:48.36KB
基于知识的智能问答核心技术.docx
《基于知识的智能问答核心技术.docx》由会员分享,可在线阅读,更多相关《基于知识的智能问答核心技术.docx(7页珍藏版)》请在冰豆网上搜索。
基于知识的智能问答核心技术
题目:
基于知识智能问答技术(PDF)
作者:
许坤,冯岩松(北京大学)
————————————————————
作者简介:
许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库智能问答技术,已持续三年在面向构造化知识库知识问答评测QALD-4,5,6中获得第一名。
冯岩松,北京大学计算机科学与技术研究所讲师。
毕业于英国爱丁堡大学,获得信息科学博士学位。
重要研究方向涉及自然语言解决、信息抽取、智能问答以及机器学习在自然语言解决中应用;研究小组已持续三年在面向构造化知识库知识问答评测QALD中获得第一名;有关工作已刊登在TPAMI、ACL、EMNLP等主流期刊与会议上。
作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863筹划项目。
分别在和年获得IBMFacultyAward。
引言
近年来,信息抽取技术迅速发展使得迅速构建大规模构造化、半构造化知识库成为也许。
一大批构造化知识库如雨后春笋般涌现出来,如GoogleKnolwedgeGraph(Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及XX等公司内部知识图谱等。
同步,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。
相比于老式基于文本检索问答系统,运用知识库回答自然语言问题可觉得顾客提供更精准、简洁答案,因而始终受到学术界和工业界广泛关注。
当前基于知识库问答技术可以大体分为两类。
第一类基于语义解析办法。
此类办法通过学习有关语法将自然语言转问题转换成可以用来描述语义形式化语言,如逻辑表达式等。
构建这样语义解析器需要大量标注数据,例如,自然语言问题及其相应语义描述形式。
然而,针对Freebase这样大规模构造化知识库,在实际中很难收集到足够多高质量训练数据。
此外,语义描述形式与知识库构造之间不匹配也是此类办法普遍遇到一种问题,例如,在Freebase中并没有“爸爸”或“妈妈”这样谓词关系,只有“父母”,因而,如果想表达“A是B妈妈”这样关系,则需明确表达为“”并且“”。
另一类知识问答技术是老式基于信息检索办法。
此类办法不会将自然语言问题完全转换成形式化语义描述,而是一方面运用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。
由于不需要完整地解析自然语言问题语义构造,因而,此类办法构造训练数据过程相对简朴,只需收集问题答案对即可。
实验表白,基于检索办法对语义简朴自然语言问题比较有效,但是难以解决语义构造复杂问题,特别是包括各种实体和关系自然语言问题。
例如,对于自然语言问题“WhatmountainisthehighestinNorthAmerica?
”,检索类办法由于缺少对highest对的解析,普通会将所有坐落在北美山脉返回给顾客。
事实上,为了得到对的答案,问答系统还需要依照山脉高度对候选答案进行排序,并选取海拔最高山脉返回给顾客。
该过程普通需要人工编写解析规则对答案进行筛选,费时费力。
此外,由于自然语言描述多样性,人们也无法事先穷举所有这样规则。
然而事实上,Freebase这样构造化知识库但愿存储关于真实世界知识条目,而像维基百科页面这样文本百科资源则存储支持这些事实文本描述。
例如,在维基百科页面中,咱们可以找到一段与候选答案关于文本
Denali(alsoknownasMountMcKinley,itsformerofficialname)isthehighestmountainpeakinNorthAmerica,withasummitelevationof20,310feet(6,190m)abovesealevel。
很明显可以看出,这段文本描述可以协助咱们提高Denali或者MountMcKinley作为对的答案置信度,并过滤掉候选集中错误答案。
正是受到这个发现启发,咱们提出同步运用构造化知识库与可信文本百科资源,如维基百科页面,来回答知识类自然语言问题。
基于各种知识资源问答技术框架
图1:
针对问题whodidshaqfirstplayfor流程图
以样例问题whodidshaqfirstplayfor解决流程为例,图1展示了融合各种知识资源问答框架。
该问答系统框架重要包括基于构造化知识库Freebase问题求解和基于非构造化知识资源Wikipedia文本浅层推理。
∙基于构造化知识库问题求解
基于构造化知识资源问题求解某些只需给出候选答案集合即可,因而既可采用基于语义解析办法,也可以直接采用基于检索办法来实现。
这里咱们采用是基于检索方案,重要涉及实体链接,关系抽取,以及这两某些联合消解三大某些。
1) 实体链接
实体链接在知识类问题解析中扮演着十分重要角色。
咱们采用词性POS序列来筛选问题中所有实体候选,此前面问题为例,咱们可以运用POS序列NN辨认出实体shaq。
对于辨认出来实体候选,咱们使用实体链接工具S-MART获取可以潜在链接到Freebase5个候选实体。
详细而言,对给定实体候选,S-MART一方面依照字符串相似度从Freebase中获取某些候选实体,然后运用记录模型依照知识库实体与实体候选之间共现频率计算出一种得分并排序,最后给出实体链接成果。
2) 关系抽取
关系抽取用于辨认问句中实体与答案(疑问词)之间语义关系。
咱们使用多通道卷积神经网络来拟定自然语言问题中实体与答案之间存在关系。
详细地讲,咱们使用两个通道,一种通道捕获句法信息,另一种通道捕获上下文信息。
每个通道卷积层接受一种长度不固定输入,但是返回一种固定长度向量(咱们使用最大采样法)。
这些固定长度向量被拼接在一起形成最后softmax分类器输入,该分类器输出向量维度等于关系类别总数,每一维值等于映射到相应知识库谓词置信度。
3) 实体和关系联合消歧
普通状况下实体链接与实体关系抽取都是独立预测,因而不可避免会存在流水线框架下常用错误传递现象。
因而,咱们提出了一种联合优化模型从实体链接和关系抽取候选成果中选取一种全局最优“实体-关系”配备。
这个挑选全局最优配备过程本质上可以被视作一种排序问题,即,“合理”实体-关系配备在知识库中应更常用,应当有更高得分。
咱们重要依赖从知识库中抽取三类特性,即实体特性、关系特性和答案特别特性。
∙基于Wikipedia文本描述浅层推理
基于构造化知识库求解候选答案集,咱们从维基百科文本资源中收集候选答案支持文本,并训练答案过滤器对候选答案集进行筛选,以得到更精确答案。
1) 数据预解决
详细地讲,咱们一方面从维基百科中找出描述自然语言问题中实体页面。
咱们抽取维基百科页面内容,并运用Wikifier辨认句子中维基百科实体,再运用FreebaeAPI将这些实体映射到Freebase中实体。
最后在页面中寻找包括候选答案句子当做支持文本。
2) 答案过滤模型
咱们将浅层推理过程抽象为一种面向候选答案二分类任务。
在实验中,咱们使用LibSVM来训练该二分类器。
该分类器重要使用特性是词级别配对特性,其中第一种某些来自给定问题,而第二个某些来自维基百科中支持文本。
更形式化地,给定一种问题q=
对每个问题与支持文本对(q,s),咱们可以生成词级别配对特性集合{(qi,sj)},这些词对浮现次数作为特性用来训练分类器。
需要指出是,这里仅尝试了最简朴二分类方式,重要目是检查附加文本资源作用;而使用线性优化、或神经网络等更精致融合方式也许会带来更明显精确率提高。
实验
咱们使用WebQuestions数据集进行有关实验。
该数据集一共包括5810个自然语言问题以及答案。
其中训练集包括3778个问题(65%),测试集包括2032个问题(35%)。
咱们使用答案平均F1值来评测本框架。
表1给出了不同办法在WebQuestions数据集上成果。
办法
平均F1
(Bastetal.)
49.4
(Berantetal.)
49.7
(Reddyetal.)
50.3
(Yihetal.)
52.5
本研究工作
Structured
44.1
Structured+Joint
47.1
Structured+Unstructured
47.0
Structured+Joint+Unstructured
53.3
表1基于关系抽取问答技术在WebQuestions数据集上成果
为了拟定所提出框架中不同模块重要性,咱们详细比较了如下几种模型变种成果。
Structured该办法只包括基于构造化知识库Freebase问题求解。
详细地讲,咱们一方面进行实体链接,将自然语言问题中包括实体名词映射到Freebase中实体,其中得分最高实体被当做成果。
然后咱们进行关系抽取并从候选关系中选取与实体最匹配关系当做最后实体-关系配备。
最后,咱们使用这个实体-关系配备来预测问题答案。
Structured+Joint与上面办法略有不同,这个办法使用联合消歧办法去选取全局最优实体-关系组合,并进行基于构造化知识库问题解答。
Structured+Unstructured这个办法里,咱们使用流水线实体链接和关系抽取成果进行基于构造化知识库问题求解,进而,运用基于维基百科浅层推理来筛选答案。
Structured+Joint+Unstructured这是咱们所提出融合各种知识资源完整问答框架。
咱们一方面在构造化知识库Freebase上进行问题求解,即,进行实体链接和关系抽取联合优化,并在Freebase上获得候选答案集合;在此基本上进行基于文本浅层推理,即,从维基百科中抽取答案支持文本,并对候选答案进行筛选,获得最后答案。
从表1中成果,咱们可以发现实体链接和关系抽取联合推理成果会优于流水线办法,整体效果提高了3%,并且比大某些语义解析办法要好。
另一方面,与(Yihetal.)运用人工编写规则工作相比,融合构造化知识库与文本知识资源办法在问答精确率上整体提高了0.8%,这进一步阐明了恰当使用非构造化文本知识资源可以在很大限度上代替人工编写规则来辅助回答自然语言问题。
本文提出融合不同知识资源问题解答框架具备较好可扩展性,无论在构造化知识库求解某些,还是各种资源融合运用方面都可进一步改进,以更大限度发挥不同资源之间互补作用,提高知识类问题解答精度。
参照文献
∙HannahBast,ElmarHaussmann.MoreAccurateQuestionAnsweringonFreebase.CIKM.,1431-1440
∙JonathanBerant,PercyLiang.ImitationLearningofAgenda-basedSemanticParsers[J].TransactionsoftheAssociationforComputationalLinguistics.,3:
545–558
∙SivaReddy,OscarTäckström,MichaelCollins,TomKwiatkowski,DipanjanDas,MarkSteedman,MirellaLapata.TransformingDependencyStructurestoLogicalFormsforSemanticParsing[J].TransactionsoftheAssociationforComputationalLinguistics.,4:
127-140
∙KunXu;SivaReddy;YansongFeng;SongfangHuang;DongyanZhaoQuestionAnsweringonFreebaseviaRelationExtractionandTextualEvidence.ACL,
∙KunXu;YansongFeng;SongfangHuang;DongyanZhao,HybridQuestionAnsweringoverKnowledgeBaseandFreeText,COLING
∙YiYang;Ming-WeiChang,S-MART:
NovelTree-basedStructuredLearningAlgorithmsAppliedtoTweetEntityLinking,ACL
∙ Wen-tauYih,Ming-WeiChang,XiaodongHe,JianfengGao.SemanticParsingviaStagedQuery GraphGeneration:
QuestionAnsweringwithKnowledgeBase[C].ACL-IJCNLP.,1321-1331
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 智能 问答 核心技术