互联网产品评论的情感分类研究.docx
- 文档编号:23100453
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:22
- 大小:395.22KB
互联网产品评论的情感分类研究.docx
《互联网产品评论的情感分类研究.docx》由会员分享,可在线阅读,更多相关《互联网产品评论的情感分类研究.docx(22页珍藏版)》请在冰豆网上搜索。
互联网产品评论的情感分类研究
大连民族学院本科毕业设计(论文)
互联网产品评论的情感分类研究
学院(系):
计算机科学与工程
专业:
计算机科学与技术
学生姓名:
赵迪
学号:
2010210730
指导教师:
孟佳娜
评阅教师:
刘爽
完成日期:
2015年6月16日
大连民族学院
摘要
情感分类研究是最近十多年来新出现的一门学科,而且这门学科将会影响到很多学科的调研作用,尤其在文化的方面,可以真正的了解大众情感趋势和大众情感预测。
目前,情感分类研究学科主要研究褒义贬义的情感分类研究、在线的语言价值挖掘,大部分的研究需要基础性信息搜索、学习计算机机器语言、处理大众信息语言、数学统计学相关的专业知识,现在也有一些特定的处理语言方法,收集网络评论后台的数据库,对文档进行分析,可以判别出其中的复杂情感,判断用户的情绪变化趋势,这也是大数据时代,对数据分析的基础。
本文针对主要针对互联网的中文产品评论文本,对其进行评论倾向性的分析,并根据已标注的样本,对产品评论的倾向性进行预测。
本系统首先对语料进行处理,使用分词系统对语料进行分词、去停用词、构建词典。
然后通过TFIDF加权算法对语料的权值计算。
最后,使用支持向量机LIBSVM料进行分类,得到产品评论的正面或负面的倾向性预测结果。
关键词:
情感分类;权值;语料;支持向量机
ResearchonSentimentclassificationofInternetProductReviews
Abstract
Emotionalclassificationstudyisinthepasttenyearsanewdiscipline,andthesubjectwillaffectalotofsubjectsofresearch,especiallyintheaspectofculture,cantrulyunderstandthepublicemotionaltrendandaffectiveforecastingofthemasses.Atpresent,theemotionalclassificationresearchsubjectresearchofgoodnegativeemotionclassificationresearch,onlinelanguagevaluemining,mostresearchneedbasicinformationsearch,learncomputermachinelanguage,process,publicinformationlanguage,mathematicalstatisticsrelatedprofessionalknowledge,nowtherearesomespecificmethodsofprocessinglanguagecollectionnetworkcommentsthebackgrounddatabase,analysisofdocuments,canidentifythecomplexemotions,judgethetrendoftheuser'smoodchanges,thisistheeraofbigdata,onthebasisofdataanalysis.
ThispaperfocusesontheInternetproductreviewsinChinesetext,theanalysisofthecommentonitsorientation,andaccordingtothemarkedsample,topredictthetendencyofproductreviews.Thissystemtodealwithcorpus,thefirsttousethewordsegmentationsystemtoparticiplecorpus,tostopwordsandthelexicon.AndthenthroughtheweightedalgorithmTFIDFweightcalculationofcorpus.Finally,theuseofsupportmachinesLIBSVMmaterialclassification,bepositiveornegativeorientationofproductreviewspredictionresults.
Keywords:
sentimentclassification;weight;corpus;supportvectormachine
目录
摘要I
ResearchonSentimentclassificationofInternetProductReviewsII
1绪论-1-
1.1课题背景-1-
1.2研究现状-2-
1.3本文工作-2-
2.产品评论倾向性分析-4-
2.1什么是中文分词-4-
2.2中文分词技术-4-
2.2.1字符对比分词-5-
2.2.2理解切分分词-5-
2.2.3基于统计的分词方法-6-
2.3分词中的难题-6-
2.3.1歧义识别-6-
2.3.2新词识别-7-
2.4ICTCLAS-7-
2.5什么是TFIDF-8-
2.5.1TFIDF的概率模型-8-
2.5.2TFIDF的工作流程图-8-
2.6什么是libsvm-9-
3系统设计与实现-10-
3.1系统流程-10-
3.2具体步骤-10-
3.3软件的前端设计-13-
4.实验结果及分析-15-
4.1实验语料与实验结果-15-
4.2实验分析-16-
5结论-19-
致谢-20-
参考文献-21-
1绪论
1.1课题背景
互联网产品评论的分类研究,是指通过特定的分类算法,对互联网产品评论分类,发现消费者是否对商品满意,可以将消费者的态度分为两类,将互联网产品评论分类,可以统计出褒义评论的条数和贬义评论的条数,通过百分比的比较,可以看出消费者是否对互联网商品是否满意,判断这个互联网产品是否成功,从而也可以给商品公司一个判断未来趋势的方向,通过消费者的反馈信息,商家可以根据这些消息对互联网商品进行创新或者完善,使商品更加符合消费者的口味,商家才可以赚取更多的价值。
互联网对对信息共享有着不可磨灭的功勋,随着互联网的不断演化,新一代的格局又将出现,大数据时代,中国人可能对数据的接触不是很深刻,随着中国走出世界,看到许多国外的处理数据模式,所以中国开启了创新模式,简单的来讲数据来说,许多人都看过美国的职业篮球比赛NBA,在比赛中每当暂停比赛时就会插播一段数据统计,其实我们看来没有什么真正的用处,可能就是简单的自身技术的好坏,其实不然,从小的方面来讲,从数据里面我们可以分析判断球员的整体技术,以及对球队的贡献大小,从大的方面来讲,从数据里面可以判断这支球队在未来有什么变化,这就是数据分析的功劳。
使用支持向量机[1][2][3]LIBSVM料进行分类,得到产品评论的正面或负面的倾向性[4][5][6]预测结果。
互联网产品的分类研究[7][8]作为时下的潮流项目,对数据挖掘分类研究非常宽阔。
可以区分互联网产品的评论文本获取商品的价值属性,了解消费者的积极还是消极的购买态度,从而获得互联网产品分类研究和商品预售前景的关系。
目前,在中国线上销售,有很多的厂商和电商,比如说淘宝商城和京东商城,我从网上下载的数据,发现中国每天有数以亿计的商城浏览量,因为现在信息的共享,许多人可以足不出户就可以买到自己喜欢的衣服,或者自己喜欢的商品,尤其是现在的年轻人更是对网购青睐有加,有的年轻人工作比较忙,所以没有时间做饭,很多人开始订叫外卖,现在比较流行的是美团和饿了么。
其实现在的生活中方方面面都在与互联网相联系着,这就会产生一个问题,怎样判断一个物品的性质好坏,有的人会说质量不好我们可以退货,其实这是很麻烦的,首先是时间的问题,在物流将货物返回给厂家的时候会浪费掉一部分时间,其次是物流费用的问题,这部分的费用需要你本人承担,这样使你对网购失去了信心。
现在又有许多人开始了新的购物模式,比如说我在实体店看中了一件衣服,但是我还无法判断它的价格是否合理,衣服搭配是否时尚,当我回到家里的时候,可以与网上的商城对比价格,还有从商品的回馈信息中判断商品的质量,最后确定购买与否。
其实互联网产品评论的情感分类研究,就是用客户的评论来展现客户对商品的看法,这个看法将会有两方面的作用,最大的作用其实是对厂家来说,从客户的评论中,厂商可以看到他们的商品有哪些不足的地方需要更改,还有可以判断客户的心理,创新发展新的产品,另一个作用是对其他购买者,可以从商品的评价信息中,判断产品的好坏,然后在思考是否购买。
现在从新闻中可以了解到出现对商品的虚假评论,导致消费者上当受骗,其实防止这方面的造假技术还在初级的探索阶段,技术、资源、应用平台不能够整合到一起,很难对一个软件进行好坏的评价,这方面还需要进一步探索。
1.2研究现状
国外情感分析发展较早,情感倾向性问题最早由Hatzivassiloglou等人率先提出参[9]。
Hatzivassiloglou等人通过从大量未标注的文本集中提取形容词并且判定形容词的情感倾向性来分析文本的情感倾向性。
经过多年的发展,情感分析有Positive和Negative类方法、正负向种子词集合的good,bad(通过计算的到PMI)、同义词关系法、已经Turney等人提出的无监督的情感倾向性算法。
进几年来,为了满足用户的强烈个人要求和市场的需求,情感倾向性的分析研究的重点逐步转向更细粒度的情感倾向性判定和多领域情感倾向性的判定的方向。
前者主要是从篇章角度去分析和判定文本情感,而后者是利用已近标注好的情感词汇库为基础,从多角度和多维度去判别和分析文本情感,来分析文本情感倾向性。
同时国内外举办的信息检索的会议上都有关于主观性文本情感倾向性分析的研究议题,在这其中比较有影响力的有COAE,TREC及NTCIR。
1.3本文工作
本文主要用到myeclipse、tomcat、servlet等软件,使用java语言。
包括如何使用ictclas分词系统构建词典,在建立词典前需要对语料去停用词,还有系统性分词处理。
虽然说是文本分类,但是将一个文本进行分类,分为两个过程,第一个过程就是对文本计算后的数据进行训练,得到一个训练集文件,第二个过程就是将要测试的文档进行计算后的数据去验证训练集文件的精确率,LIBSVM本身可以对文档分类,由于计算机二进制的原因,一开始并不可以将所有的数据处理好,就会产生一定的误差,所以我们就要对初级文档进行装饰,也就是包括分词和权值计算,这两部分的处理对计算机软件分类有着巨大的影响,因此必须处理好初级文档的形式,整体的框架也需要我们自己去搭建完成。
具体的步骤如下:
1.对训练集文本处理:
这里主要包括分词、去停用词、建立词典;
2.计算出词汇的向量值也就是词汇的权重,可以使用相关有效的技术去实现词汇向量的选择,但是由于数据字典的庞大,通过选择降低词汇本身的维度位置,可以减少词典的计算量,保持软件的精确度提升分类的质量;
3.量化输出libsvm训练样本集的支持文件:
类别名称、特征向量分别为每个单词元素编号映射转换,以及基于分类和量化的文本特征向量训练集,以满足数据使用libsvm培训所需的格式;
4.测试数据集预处理:
还包括分割、去停用词,构建数据词典,但是你需要加载训练过程生成的特征向量使用特征向量来消除多余的单词不是特征向量;
5.计算出libsvm向量化的样本文件,输出结果的格式和训练数据集的格式是一样的;
6.使用libsvm训练文本分类器:
使用训练集预处理阶段输出的计算权重后的数据集文件,然后计算出分类模型文件;
7.使用向量机检验分类模型的精确率:
使用测试文件处理阶段输出的计算后的数据词典文件,和分类模型文件来检验分类的精确率;
8.若是经过向量机训练出来的分类模型不是很理想,我们可以根据向量机本带的交叉验证去完成参数优化,查找参数取值范围来获取最佳的参数取值,使分类模型的精确率实现分类要求。
基于上面的步骤,分别对上面每个步骤进行实现,最终完成一个分类任务。
2.产品评论倾向性分析
互联网产品的情感分类研究就是对文本情感的一个分类过程研究,互联网产品的情感分类研究的这篇论文主要在文字上探讨如何实现,以及相关软件的应用,真正的实际应用就要到软件上进行实践,下面的几个模块就是软件的处理过程,包括以下几个步骤:
1.对语料进行整理,使用ictclas分词系统对语料进行分词、去停用词、构建词典dictionary。
2.对语料进行权值计算,主要通过TFIDF加权算法对语料的权值计算。
3.对加工后的语料进行分类,使用向量机libsvm对语料加工形成集合,包括train、test、model、out文件集合。
最后根据软件的相关系统处理可以得到测试文本的方向性。
由于语料数量的限制还有TFIDF[10]加权算法的简单局限性,使分类的结果并不是很理想,后面还有很多地方需要提高。
2.1什么是中文分词
中文分词处理和英文分词处理有着天壤之别,英语是以单个词模式为基础单位的,例如Iamaenglishteacher,其中I就是一个基础单位,I和其他单词一样,它们之间靠空格键分离,计算机就可以通过判断一个单词后面是否有空格键来判断这个单词是不是一个词汇,而中文分词就会很麻烦,例如“我是一个英语老师”,计算机就无法知道“我”是不是一个单独的词基,它只可以整体的明白,“我是一个老师”就是一个词汇,而简单的切分,就会成为这样“我是一个英语老师”把整体都切成了很多部分,而像我们常人理解的是“老师”就是一个词基,不能再向下切分。
把一个文档中一个句子,切分成单个字符词或者多字字符词,而这些词汇人脑看来已经是最小单位词,其实就是中文分词,例如:
我是一个英语老师,分词后就是这样:
我是一个英语老师。
2.2中文分词技术
其实中文分词技术是机器语言领域所涉及的,常人可以通过简单的学习可以知道一个句子中该怎么样去切分词汇,但是计算机和人是不一样的,不能像人脑那样可以进行理解,所以我们就要给计算机安装一个人脑,其实这个人脑就是分词算法,我们把分词算法写进计算机,那么它就可以像人类一样可以去切分句子。
2.2.1字符对比分词
字符匹配和机器切分是同一种方法,它们都是将待要切分的文本放到一个巨型的数据词典中,在词典中找到类似的汉字模型,如果找到相同的汉字,就表示发现一个词语,也就是分出来了一个词,按照匹配的方向不同,查找词汇可以按照从左至右的方向进行正向选择,也可以从尾端向前段进行字符对比,是负向性选择;还有,一个文本中包含的词汇长短不一,优先选择短词汇对比,也可以选择长度较长的词汇进行对比。
目前,大部分接触的分词算法:
1)从左到右最短对比法;
2)从右到左最长对比法;
3)最小量化切分。
其实单一的对比算法,会有很多缺陷,比如字符对比的算法就会浪费很大的资源空间,而且包括时间效率,和线性表中的线性比对是类似的,这种方法是不理智的,所以我们可以上述方法进行结合,提高效率和分词质量。
比如我们选择正向最大对比切分可以和反向的最大对比切分加工在一起,成为从两个方向共同执行语法,这样可以节省时间,但是开销空间会进一步加大,由于汉字有时候单个字符就是一个词汇,所以很少使用正负向的最小对比,而且它们的计算准确率不是很高,现在很少人去用这个算法。
但是准确率还是不能满足现在人们工作所需要的最低额度。
在计算机的领域中真正的分词,机器分词是其他一切分词最基础的部分,也是真正分词的开始,还有很多可以改进的方法去提高分词质量。
还有一种方法就是特征提取,在将要被切分的文本中提取一些关键词,该关键词作为切分该段文本的断点,从词的左右两边同时做最小字符串的对比切分,可以降低配比的失误率。
最后一种方法就是给词汇进行词性分类,动词、名词、停用词,首先给它们标注词性,一边标注词性,一边去对比词性,这样可以缩小对比的范围。
2.2.2理解切分分词
顾名思义,基于理解切分,就是让计算机模仿人脑去对句子进行分析,其基本思想等于在分词的时候,可以实行对语法语义的判断,借用语法信息去解决矛盾的情况。
它通常包括三个部分:
首要、语法、分词系统。
在主系统的控制下,将获取的关键词、语法信息,给分词系统去进行分析,这样计算机就实现了人脑对文本的认识,但是这种方法是很浪费地址空间,需要将大量的词汇进行处理,中华文字的博大精深,使得很多机器无法正确的理解和分析汉语词汇,这个项目还在不断的探索着,因为我刚开始学习语言分类,只是懂一些简单的基础知识,很多难点还需要去查阅其他的相关资料
2.2.3基于统计的分词方法
从表面上看,词汇是由简单的字符构成,在一篇文章的一个段落中,紧挨着的两个字符出现的次数越多,表明该词汇就越接近一个词组这样从该词汇出现的频率就可以判断出该字符的可信程度。
判定一个词组中,前后字符键的关系,分析A、B、C三个字符中,或者多字符中,相邻的两个字符共同出现的频率,频率出现的越高,表明该词组粘合的程度越高,它们之间的关系定义为粘合值,当这个标准值超过一定的限制后,就可以认定该词汇是一个词,便可不用再去对它进行切分。
这个方法还是有一些缺点,有时候会将词汇无法区分开来,比如“它们的“、“它的”,按照正常理解它们的是一个出现频率高的词汇,但是有些文章中出现的是“它们的”,因为计算机不是人类,可以去判断,它只是可以根据词频去判断这个词汇需不需要去进行切分。
而准确率比较高的判断,需要一个基础的字典,所有的文字都要涵盖,这样进行字符匹配,从而达到利用率高效果好的结果。
对于现在鱼龙混杂的分词系统,也有一些真正好的分词系统,但万变不离其宗,分词系统光靠单独的一个算法是行不通的,就像病人看病,一个是西医,一个是中医,有的人说中医好但效果慢,有的人说西医好效果快,但有副作用,那位神秘不选择中西结合,多管齐下,从而达到治病的效果,计算机分词软件也是一样,应该集百家之精,达到完美效果。
2.3分词中的难题
目前,世界计算机领域已经真正的掌握了分词技巧,但大部分都是针对国外的语言,对中文处理的算法和技术已经到到了新的高度,但是在软件的实践过程中还是会有很多的麻烦,因为计算机真的很难读懂汉字,现在真的需要开发这样一个软件去让计算机实现人脑识别,在中文分词这一过程中的探索,始终有着严重的缺陷,始终没有突破。
2.3.1歧义识别
歧义的意思是相同的一段话,都可以被切分,但是切分出来的意思是不一样的。
例如:
“亲爱的”,由于“亲爱”与“爱的”这两个都属于一个词,所以这一个短语就能够被切分为“亲爱”的与亲“爱的”这两种形式。
这种方式称之为交叉歧义。
交叉歧义的发生是不能控制的,例如“吃饭和服侍”,这就是歧义的例子。
其中“吃饭和服侍”这一短语我们能够将其分解为“吃饭”和“服侍”与“吃饭”“和服”侍。
这种现象的出现是因为计算机不能够像人类一样去辨别和更好地理解其含义所以计算机很难做出正确的判断究竟哪个方案是正确的。
交叉歧义与组合歧义相比,前者处理起来还是相对而言较为容易的,后者则更为复杂一些,要通过句子进行判断。
比如,在“自行车车把手坏了”这句话中,“把手”作为一个独立的词存在,而在“把手背过去”这一句话中,“把手”就不能作为一个独立的词存在;在句子“她成为一名少将”中,“少将”是个词,但在句子“吃很少将会饿肚子”中,“少将”不可能成为词汇了。
这些词计算机又如何去识别?
在以上两种歧义都得到解决的情况下最为困难的当属真歧义了。
真正歧义词,这种错误就像高考语文中有一道歧义句改错的题目一样,这句话真的有两层含义,但要真正的判断,还需要从文章的上下意思去分析。
例如:
在“羽毛球球拍卖完了”这句话中,我们能够将其分解为“羽毛球拍卖完了”,同样地我们也能够将其理解为“羽毛球拍卖完了”,在这种情况下,我们如果不结合上下文来分析,我们也不能够准确地给出判断究竟“拍卖”是不是作为一个独立的词存在。
2.3.2新词识别
新词意思不是崭新的词汇意思,这个新词的意思是你所用的词典没有我们经常用到的这个词汇,例如,“屌丝”曾经没有出现在字典里那就是新词了,计算机系统也是一样,在它本身的库里面没有的词汇就是新词。
其中最为典型的当属人名了。
我们通常很轻松地就可以读懂“张中虎去广州了”这句话,其中“张中虎”算作一个人名而独立存在的词,作为计算机其往往分辨不出这个人名,若把所有人名都收录到字典中去,那这个工程将永远无休止的进行下去,根本是无法能够以现在的计算机技术可以解决的。
即使我们将这些人名全部收录,也会出现“张中虎头虎脑的”这种情况,这时电脑又该如何判断呢?
现在每天都会有地名的更新,对于计算机系统新词的识别是很关键的,这会影响到搜索引擎对软件的影响,所以新词的识别能力越强,就是说明这个计算机软件的性价比高。
2.4ICTCLAS
分词是处理汉语文章的基础和核心。
中国科学院计算技术研究所研制出了汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。
目前升级到了ICTCLAS4.0。
使用ICTCLAS是因为它的功能比较强,在同类的分词软件当中是最好的。
2.5什么是TFIDF
TFIDF[11]是像数学一样包含着概率的统计算法,来判断一个字符串在一篇文章中是否具有高度的粘合性,就像关键性词语一样,给出这篇文章的重要成分,来评估
这个词汇的轻重与否。
字符串的粘合性凭借着它在文章中出现的频率增加而增加,它的重要性是与出现的频率成正比,现在各大搜索引擎主要使用的是TFIDF加权处理,但是还有少数使用链接分类的方法,搜索新的文件顺序列。
2.5.1TFIDF的概率模型
目前,大部分搜索引擎主要使用的都是TFIDF模型,这个模型的具有真正的高效性和适用性。
TFIDF模型的运用的思维模式是:
如果词A在一个文章B中出现的次数很多,而且在其他的文章中出现的频率很低,则词A具有很好的区分能力,适应用来把文章B和另外的文章分别标注出来。
2.5.2TFIDF的工作流程图
TFIDF的工作流程.如图2.1所示。
图2.1TFIDF工作流程图
2.6什么是libsvm
LIBSVM是林智仁老师和一些台湾大学的其他老师或者教授开发创立的一个软件包,这个软件包集快捷、方便、实用、高效于一体的模式识别,还有svm回归等功能,LIBSVM是一个开源的项目,基本可以在各个平台上应用。
LIBSVM中包含调节参数,大部分的应用都是使用系统本身所提供的参数,这些参数不用我们人为的去修改,就可以应用到分类的问题中去。
ν-SVR、C-SVM、ν-SVM、ε-SVR的问题都可以被LIBSVM去进行完成,但是一对多的算法识别问题,LIBS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 产品 评论 情感 分类 研究