情感分析研究现状.docx
- 文档编号:5583335
- 上传时间:2022-12-28
- 格式:DOCX
- 页数:11
- 大小:19.42KB
情感分析研究现状.docx
《情感分析研究现状.docx》由会员分享,可在线阅读,更多相关《情感分析研究现状.docx(11页珍藏版)》请在冰豆网上搜索。
情感分析研究现状
文本感情剖析研究现状
机器之心专栏
作者:
李明磊
作为NLP领域重要的研究方向之一,感情剖析在实质业务场景中
存在巨大的应用价值。
在此文中,华为云NLP算法专家李明磊为
我们介绍了感情剖析的看法以及华为云在感情剖析方面的实践和
进展。
基本看法
为何:
跟着挪动互联网的普及,网民已经习惯于在网络上表达建议和建议,比
如电商网站上对商品的议论、交际媒体中对品牌、产品、政策的议论等等。
这些
议论中都包含着巨大的商业价值。
比方某品牌企业能够剖析交际媒体上广大公众
对该品牌的议论,假如负面议论突然增加,就能够迅速采纳相应的行动。
而这类
正负面议论的剖析就是感情剖析的主要应用处景。
是什么:
文本感情剖析旨在剖析出文本中针对某个对象的议论的正负面,比方「华
为手机特别好」就是一个正面议论。
感情剖析主要有五个因素,(entity/实体,
aspect/属性,opinion/看法,holder/看法拥有者,time/时间),此中实体和
属性归并称为议论对象(target)。
感情剖析的目标就是从非构造化的文本议论中
抽拿出这五个因素。
图1感情剖析五因素举比以下列图:
图2感情剖析五因素例子
上例中左边为非构造化的议论文本,右边为感情剖析模型剖析出的五个因素中的
四个(不包含时间)。
此中实体「华为手机」和属性「摄影」归并起来能够作为
议论对象。
议论对象又可细分为议论对象词抽取和议论对象类型辨别。
照实体可
以是实体词和实体类型,实体词能够是「餐馆」、「饭馆」、「路边摊」,而实
体类型是「饭馆」;属性能够是属性词和属性类型,如属性词能够是「水煮牛肉」、
「三文鱼」等,都对应了属性类型「食品」。
实体类型和属性类型相当于是对实
体词和属性词的一层抽象和归类,是一对多的关系。
词和类型分别对应了不同的
任务。
看法的取值范围一般是{正面,负面,中性}。
近似的,能够把看法看做
是对描绘词的抽象和归类,如「美丽」归为「正面」。
任务种类
目前研究中一般都不考虑感情剖析五因素中的看法拥有者和时间,故后文中的讨
论都不考虑这两个因素。
依据对剩下三个因素的简化,目前感情剖析的主要任务
包含可依据图3所示:
词级别感情剖析、句子/文档级感情剖析、目标级感情分
析。
图3感情剖析任务系统
此中词级别和句子级其余剖析对象分别是一个词和整个句子的感情正负向,不区
分句子中详细的目标,照实体或属性,相当于忽视了五因素中的实体和属性这两
个因素。
词级别感情剖析,即感情字典建立,研究的是怎样给词给予感情信息,
如「诞辰」对应的感情标签是「正面」。
句子级/篇章级感情剖析研究的是怎样
给整个句子或篇章打感情标签,如「今每日气特别好」对应的感情标签是「正面」。
而目标级感情剖析是考虑了详细的目标,该目标能够是实体、某个实体的属性或
实体加属性的组合。
详细可分为三种:
Target-groundedaspectbased
sentimentanalysis(TG-ABSA),Targetnoaspectbasedsentimentanalysis
(TN-ABSA),Targetaspectbasedsentimentanalysis(T-ABSA).此中
TG-ABSA的剖析对象是给定某一个实体的状况下该实体给定属性会合下的各
个属性的感情剖析,如图4中的实体是汽车,属性会合是动力、外观、空间和
油耗。
图4TG-ABSA例子
TN-ABSA的剖析对象是文本中出现的实体的感情正负向,如图5中,实体华
为和XX的感情正负向分别为正面和负面。
这类状况下没有属性的看法,只有
实体。
图5TN-ABSA例子
T-ABSA的剖析对象是文本中出现的实体和属性组合,如图6所示,议论对象
是实体+属性的组合,如华为+摄影和XX+性价比。
图6TG-ABSA例子
在清楚了目标级感情剖析的分类以后,每个类型又都能够包含为两大类任务:
第
一个是议论对象的辨别,第二个是感情辨别。
议论对象辨别包含议论对象词抽取
和议论对象词分类,感情辨别包含议论词抽取和议论正负面分类。
详细例子如图
7所示。
之因此要辨别出对象词和议论词,是为了能够鉴于属性正负面过滤的时
候能够高亮相应的议论文本片段。
图7议论对象和议论词和类型辨别例子
本文主要介绍词级别感情剖析、句子级感情剖析和目标级感情剖析中的
T-ABSA的内容、方法和华为云语音语义团队在该领域实践中的一些成就。
这
里第一划分一些看法,本文所说的感情,包含emotion和sentiment两种。
严格意义上来说sentiment属于emotion的一种,可是本文中不做划分。
词级文本感情剖析
任务介绍
词级其余感情剖析,即建立感情字典(sentimentlexicon),旨在给词给予情
感信息。
这里第一要确立的是感情怎么表示,常有的表示方法有失散表示法和多
维度表示法。
失散表示法如感情剖析领域常用的{正面,负面,中性}的表示方
法,或许如表
图8失散感情模型,引用自「1」
用失散表示法表示的感情字典如:
快乐-正面,诞辰-正面,车祸-负面,灾害-负面
多维度表示法也有多种,如
Valence-Arousal-Dominance
(VAD)模型,
Evaluation-Potency-Activity
(EPA)模型等。
Valence
和Evaluation
表示
利害,arousal和activity
表示人的唤起度,dominance
和potency
表示控
制力。
图9Valence-Arousal模型
用连续多维表示方法的感情字典例子如:
VAD模型在[1,9]取值范围下:
车祸可表示为(2.05,6.26,3.76)
常有的方法
建立感情字典常有的方法如图10所示:
图10常有感情字典建立方法
人工标明长处是正确,弊端是成本太高。
自动化方法中,都是先有人工标明一些
种子词,而后经过不同的方法把种子词的标签信息扩展到其余词。
鉴于点互信息
的方法会鉴于大规模语料库统计新词和种子词之间的统计信息,而后鉴于该信息
对种子词做加权乞降获取信息的感情标签。
鉴于标签流传的方法会先建立词和种
子词的一个图,图上的边是鉴于词和词之间的统计信息获取。
而后用标签流传的
算法获取新词的感情信息。
鉴于回归的方法先建立词的特点向量表示,而后鉴于
种子词的标签信息训练一个回归或分类模型,获取该模型后再对新词做展望,获
得新词的感情标签信息。
我们的进展
我们团队鉴于已经标明的感情字典,经过自动化的方法,建立了目前业界最大规
模的多维度感情字典。
图11感情字典建立流程
鉴于该方法,我们建立了业界最大规模的感情字典库,采纳了Valence-Arousal
的二维感情表示模型,感情值取值范围为[-1,.1](-1表示不好(对应Valence
维度)或无唤醒(对应Arousal维度),1表示好或高唤醒度),字典包含六
百万词,例子以下:
图12建立的感情字典例子
句子文本感情剖析
任务介绍
句子级和篇章级文本感情剖析旨在整个句子或文章表达的感情偏向性,以下例
子:
买没几日就降价一点都不高兴,闪存跑分就五百多点点---
外观美丽音质不错,此刻电子产品基本上都是华为的了---
汽车不错,省油,性价比高---
这个政策好啊,利国利民---
目前各友商推出的感情剖析服务大多数都是这类整体文本的正负向展望。
句子级
感情剖析服务在互联网时代的电商议论、政策议论中有着宽泛的应用价值。
句子
级感情剖析是一个典型的文安分类任务,我们团队也采纳了目前比较有效的预训
练模型+微调的方案,以下列图所示:
图13句子级感情剖析方案我们的进展
目前我们已经上线了电商、汽车和交际领域的感情剖析模型,主要支持中文语言,
标签是正面和负面,带有标签置信度。
以下列图的例子所示,分别是手机、汽车和
交际领域。
图14EI体验空间电商领域、汽车领域和交际领域例子目标级文本感情剖析
任务介绍
前方介绍的句子级或篇章级的感情剖析只关注整个文本的正负面,没有划分文本
中详细的议论对象。
因此就办理不了以下的例子:
该例子对汽车的各个属性的议论正负面是不同样的,如对动力和外观来说是正
面,对空间和油耗来说是负面,因此就不可以简单的剖析整体文本的正负面。
本节
介绍的目标感情剖析中的TG-ABSA任务,即固定实体下的给定属性会合的评
价正负面的展望。
我们的进展
传统的属性级感情剖析能够采纳每个属性训练一个感情分类模型。
可是这类方法
需要训练多个分类模型,成本比较高。
我们提出了鉴于单模型多属性标签输出的
方法,即一个模型同时输出N个属性的感情标签。
图15是目前在汽车领域结
果,此中AttributeHitRate是属性的命中率,即展望出的属性占议论中实质
出现的比率。
HitAttributeAccuracy是命中的属性标签展望的正确率,即在所
有命中的属性中,标签展望正确属性的占比。
由于我们的模型能够输出每个属性
标签的置信度,因此能够鉴于置信度过滤来调理模型最后的输出标签,图中是个
曲线。
图16是汽车领域属性级感情剖析的例子,能够同时展望出议论中出现
的动力和外观两个属性对应的正负面。
该功能支持汽车领域的八个属性的议论预
测,包含:
内饰、动力、外观、性价比、控制、能耗、空间、舒坦性。
图15属性级感情剖析的成效
图16汽车领域属性感情剖析例子
最后,打个小广告。
本文前方主要介绍了感情剖析的看法以及华为云在感情剖析
方面的实践和进展,部分服务已经能够在我们的「EI体验空间」小程序体验,
欢迎大家体验并提出可贵的建议。
感情剖析服务能够用于商点议论智能化剖析、智能评分等,欢迎大家体验。
对于作者
李明磊,华为云NLP算法专家,博士毕业于香港理工大学,从事文本感情剖析
和情绪识其余研究,在TAC发布论文多篇,多次获取最正确论文奖。
目前在华为
云主要负责华为云文安分类、感情剖析、舆情监控平台等业务。
主导的文安分类
平台在汽车、电商、交际等领域的感情剖析达到了业界当先的水平。
汽车领域属
性级细粒度感情剖析8属性正确率均达到90%以上.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 情感 分析研究 现状