中文微博情感分类的简单多标签排序算法文档资料Word下载.docx
- 文档编号:13577031
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:6
- 大小:22.41KB
中文微博情感分类的简单多标签排序算法文档资料Word下载.docx
《中文微博情感分类的简单多标签排序算法文档资料Word下载.docx》由会员分享,可在线阅读,更多相关《中文微博情感分类的简单多标签排序算法文档资料Word下载.docx(6页珍藏版)》请在冰豆网上搜索。
针对微博数据的情感挖掘也成为当前研究热点,准确分类微博所表达的情感,对于民意调查、舆情监控、市场营销、政府决策等具有重要意义。
文本情感分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[1]。
微博情感分析就是其在海量微博数据当中的应用,但又与普通的文本情感分析有所不同,因为微博文本的独特性给微博情感分析带来了新的机遇和挑战:
1)微博文本被限制在140个字符之内,其文本简短给情感分析带来了巨大的数据稀疏性;
2)微博文本的不规范性和网络词汇的频繁出现,使得以往的文本情感分析方法和语料词典无法直接使用;
3)微博文本主题不明确,情感多样化,往往同一条微博同时表达了多种情感。
在中文微博中比较常用的情感划分方法是将其划分成7种情感,分别是高兴、悲伤、喜欢、生气、厌恶、恐惧和惊讶[2]。
目前,针对中文微博情感分类的研究大部分只是判别微博文本是否具有情感或者微博情感的褒贬性,而对微博文本进行细粒度情感分类的研究尚处于起步阶段。
第二届自然语言处理与中文计算会议(NLP&
CC2013)首次提出了关于中文微博的细粒度情感分析评测任务,要求识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度的情绪类别,如高兴、悲伤、恐惧、惊讶等。
贺飞艳等[3]结合TFIDF(TermFrequencyInverseDocumentFrequency)方法和方差统计方法,提出了一种实现多分类特征提取的计算方法,并在NLP&
CC2013评测所提供的数据集中对微博短文本进行了细粒度的情感判断。
欧阳纯萍等[4]通过构建微博的情感特征向量,采用支持向量机(SupportVectorMachine,SVM)和最近邻分类(KNearestNeighbor,KNN)算法对微博进行细粒度情绪分析。
Liu等[5]试图利用多标签分类方法来解决微博文本的细粒度情感分类问题,并且验证了11种多标签分类方法的可行性。
Yang等[6]针对新浪微博上关于马航失联事件的文本进行了细粒度情感分类研究,并且发现了一个有趣的现象――人们在表达悲伤情感的同时往往伴随着生气。
针对细粒度情感分类的研究取得了一定的研究成果,但仅仅只是给出了微博的情感标签,并没有体现出情感标签之间的顺序关系。
事实上,在同一条微博当中尽管表达了多种情感,但这些情感与微博的相关程度却不相同,也就是说同一条微博中表达的情感有主次之分。
掌握情感与微博相关程度,对于把握公众情感最可能的变化趋势以及个体最可能的反应非常有益。
在NLP&
CC2014提供的评测数据集中,Wang等[7]试图通过现有的校准标签排序(CalibratedLabelRanking,CLR)方法对中文微博文本的多标签情感进行排序,并且通过情感词和表情符号等情感特征对其排序结果加以修正;
但是,其忽略了情感标签之间的关联性。
本文针对NLP&
CC2014提供的情感分类数据集提出了一种简单的多标签排序方法――TSMLR(TwoStageMultiLabelRanking)。
该方法采用两步学习和两步分类的策略进行,试图通过利用情感标签之间的主次关系来提高情感分类的效果。
通过实验验证,结果表明所提方法取得了良好的效果。
1相关工作
1.1中文微博情感分析
情感分析是目前一个非常热门的研究领域,被广泛应用到微博文本和产品评论当中。
根据不同的文本粒度,可以将情感分析分为词语级、短语级、句子级以及篇章级等研究层次,根据研究任务的不同,也可将情感分析分为主客观信息分类、主观信息情感分类和更细致的情感分类[1]。
目前中文微博情感分类主要有两种研究方法:
基于情感词典的方法和基于机器学习的方法。
基于情感词典的方法主要是利用情感词典、领域词典来获取文本的情感极性。
在中文微博情感分类研究中,人们还充分利用了网络词汇、表情符号等微博特性来提高情感分类的性能。
Cui等[8]在现有词典的基础上,利用有代表性的话题相关词语和未登录词,构建了微博情感词典帮助识别微博的情感倾向;
张珊等[9]利用微博中的表情符号并结合情感词语构建了中文微博情感语料库,从而判断微博的情感极性;
Shen等[10]通过定义态度词,建立权重词典、否定词典、程度词典和感叹词词典来计算微博的情感指数;
Yuan等[11]通过结合情感词典和情感规则对微博文本进行了情感分析。
该类方法的关键在于情感词典的构建,由于中文微博情感分析处于研究初期,还没有形成统一规范的情感词典,尤其是针对现今的网络用语词典更少,所以给该类方法带来一定的局限性;
而基于机器学习的方法在于选择合适的特征来表示文本,并且通过训练分类器来获取文本的情感极性。
刘志明等[12]针对微博中的电影评论对比分析了支持向量机、朴素贝叶斯、n元语言模型三种机器学习方法的实验效果;
谢丽星等[13]则对基于表情符号的规则、基于情感词典的规则以及基于SVM的分类策略三种情感分析方法进行了深入研究,结果表明基于SVM的层次结构多策略方法效果最好;
CC2013中,Jiang等[14]利用微博中的表情符号,构建了一种情感词与表情符号的映射关系,提出了一种表情符号空间模型,将基于情感词典的方法和基于机器学习的方法结合起来。
1.2多标签排序
传统的单标签分类中,每个样本仅仅属于一个类别标签,而在实际应用中一个样本往往同时具有多个标签属性[15],并且这些类别标签与样本的相关程度不同。
多标签排序就是多标签分类和标签排序的结合,不仅要给出样本所属标签集合,还要根据标签与样本的相关程度给出类别标签的顺序[16-17]。
标签排序作为多标签学习中的一个重要问题,吸引了越来越多的研究者关注[17]。
目前主要有以下几类标签排序算法:
1)基于分解技术的标签排序方法,通过将一个复杂的标签排序问题分解为多个简单的子问题进行求解。
比如成对比较排序(RankingbyPairwiseComparison,RPC)法[18]为每一对标签产生一个数据集,并用每个数据集训练出一个二分类器,最终通过投票机制根据每个标签所得票数进行排序。
校准标签排序(CalibratedLabelRanking,CLR)算法[19]则是RPC算法的一个拓展,在RPC的基础上加入了一个人工校准标签,用于分隔标签集中的相关标签和不相关标签。
2)基于概率模型的标签排序方法,主要包括基于Mallows模型的标签排序算法[20]和基于PlackettLuce模型的标签排序算法[21]。
3)基于相似性的标签排序方法,主要通过改编传统的机器学习方法进行标签排序,包括基于朴素贝叶斯的标签排序方法[22]、基于关联规则的标签排序方法[23]和基于多层感知神经网络的标签排序方法[24]。
2TSMLR原理
本文针对中文微博文本情感分类中的一种特定类型,所处理的数据集中,每个样本最多只有两个情感标签,并且均有顺序。
假设Y={y1,y2,…,y8}表示数据集中所包含的8个情感标签集合,分别代表anger、disgust、fear、happiness、like、sadness、surprise和none,这里none表示没有情感。
用D表示数据集,D={(Xi,Yi)|i=1,2,…,n},其中:
Xi是第i个微博样本的特征向量;
Yi={yi1,yi2}(YiY)表示第i个样本的有序情感标签集合,yi1∈Y和yi2∈Y分别表示该样本的主要情感标签和次要情感标签。
若yi1≠yi2≠y8,则认为微博Xi表达了两种情感;
若yi1≠yi2且yi2=y8,则认为微博Xi只表达了一种情感;
若yi1=yi2=y8,则认为微博Xi没有表达任何情感。
表1给出了一个有序多标签数据集的例子。
为了学习情感标签之间的顺序关系,本文提出了一种简单的多标签排序算法,该方法采用两步学习与两步分类的策略进行,Dtrain和Dtest分别表示训练集和测试集。
在学习过程中,将多标签排序问题转换成一个多类单标签分类问题。
第1步对训练集进行重新组合。
首先忽略多标签排序问题中样本的第二个情感标签,只保留第一个情感标签而得到数据集D′={(Xi,yi2)|i=1,2,…,n};
然后,根据样本的第一个情感标签,针对样本的第二个情感标签对数据集进行分解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 情感 分类 简单 标签 排序 算法 文档 资料