开题报告文献综述在线评论分析系统的情感分析Word格式.docx
- 文档编号:20531298
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:8
- 大小:21.35KB
开题报告文献综述在线评论分析系统的情感分析Word格式.docx
《开题报告文献综述在线评论分析系统的情感分析Word格式.docx》由会员分享,可在线阅读,更多相关《开题报告文献综述在线评论分析系统的情感分析Word格式.docx(8页珍藏版)》请在冰豆网上搜索。
词典和基于机器学习等情感分析算法;
研究目前情感分析技术在商业领域的应用,
特别是在用户评论分析与决策上的成果。
b)针对评论文本的特点,研究和设计面向评论文本的情感分析算法。
针对评论文本短小简洁、网络术语等特点,研究和设计有效的中文情感分析算法,
判断出评论文本中的情感倾向性
c)基于上述研究,构建评论文本的情感分析模块。
设计并构建评论文本的情感分析模块,结合小组其他同学的网页内容提取模块和
网络存储模块等,构建一个在线评论分析系统,且整个系统能够正常运作。
d)测试与优化。
不断对情感分析模块进行测试与完善,尽可能提高情感倾向分析的准确率。
三、调研报告
1、情感分析的发展现状
文本情感分析是一个多学科交叉的研究领域,属于计算机语言学的范畴。
它在计算机科学以及管理学、政治学、经济学、社会学方向都有广泛的应用,而商业的蓬勃发展也进一步拓展了它的应用范围。
在20世纪90年代,就已经有学者开始了情感分析方面的研究,进入21世纪以后,作为一个新的研究方向,这个领域逐渐变得活跃,吸引了越来越多的国内外学者投入其中。
在情感分析的应用中,“用户评论分析与决策”,是目前情感分析技术使用最频繁的一个应用点[1]。
国内外有很多研究机构根据现实生活中的具体需求研发出各个领域的情感分析系统,帮助用户对海量信息进行分析和决策。
例如,Dave等人研究并开发的ReviewSeer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。
Liu等人研发的OpinionObserver系统町以处理网上在线顾客产品评价。
采用可视化方式对若干种产品评价对象的综合质量进行比较;
Wilson等人研发的OpinionFinder系统可以自动识别主观性句子以及抽取句子中情感信息;
上海交通大学则开发了一个用于汉语汽车论坛的情感分析系统,挖掘并概括人们对各种汽车品牌的评论和意见。
但由于中文和英文的差异性,许多国外的研究技术和情感资源无法直接用于中文语言的处理,基于中文领域的情感分析处于起步阶段。
情感分析技术的快速发展在很大程度上源于人们改进人机交互现状的愿望,而随着中国电子商务的迅猛发展,未来情感分析依然是数据挖掘和中文信息处理领域的热点研究领域。
[2]
2、情感分析的相关理论和技术
文本情感倾向分析的主要任务[3]是判断主观性文本所表达观点的褒贬性,根据其研究的粒度可分为词语、句子和篇章三个级别。
其中,本课题主要针对的在线评论信息属于句子级中文短文本。
句子级情感分析研究方法[4]总体可分为情感词典、机器学习和语义分析三种方式。
a)基于情感词典的方法。
以现有的情感词典为基础,结合句法分析、词语相似度分析等手段,采用计算情感权值的方式,对文本的情感倾向进行判定。
该方法简单易行,但是
2
由于受到否定词和转折词等因素的影响,其判断准确率不够理想。
王素格等人首先通过构建情感词典,在此基础上使用情感词对观点句进行表示,然后利用线性加权组合方法构造分类函数,从而实现对句子情感的褒贬分类。
b)基于机器学习的方法。
一般采用有监督的或者半监督机器学习的方式。
将情感分析看做一个文本分类问题,使用分类器将文本分为正、负两类或者正、负、中性三类。
首先进行文本预处理,提取文本中的否定词、一元词语特征(unigram)、二元词语特征(bigram)、位置信息等属性,然后利用这些属性作为文本分类中的特征,使用了NB、ME和SVM三种分类方法来进行情感分类。
Pang的分类结果表明,选用unigram特征,使用SVM分类器能取得最佳的效果,面向电影评论文本的准确率达83%。
c)基于语义和语法的方法。
蔡健平等[14]人以知网[15]根据文本的语义特征计算方法为基础,提出了基于语义距离和语法距离的句子褒贬倾向性分析方法,该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。
克蕾等通过对句子进行依存语法分析,提出了根据语法距离来计算情感修饰词对句子极性的影响,并取得了不错的结果。
四、方案拟定与分析
初步的方案有以下几个要点:
1、研究文本情感分析的相关算法。
比较各种情感分析方法的特点,并根据中文评论文本的特性及在线评论分析系统
的需求,选择其最优算法进行学习和研究;
2、分别设计基于词典和基于分类的情感分析算法
采用基于情感词典的方法
a)抽取情感短语;
b)用PMI公式计算词语的情感倾向;
c)根据计算提取出的所有的
短语情感倾向值,分析文本的情感倾向。
采用基于机器学习的方法
a)进行文本预处理,提取文本中的否定词、一元词语特征、二元词语特征、位置信
息等属性;
b)利用这些属性作为文本分类中的特征,使用了NB、ME和SVM三
种分类方法来进行情感分类。
3、设计面向评论文本的情感分析模块
a)特征提取与权重计算子模块
本子模块在提取出文本的特征并计算其特征权重后,将文本保存成向量空间模型。
b)分类子模块
考虑使用台湾大学的libsvm模块进行分类。
主要提供两个功能,即模型的训练和
对新文本进行分类。
算法测试时,首先运行训练过程来训练分类器,然后通过测
试过程来测试情感分类的准确度
4、模块接口的开发设计
情感分析模块与其他小组成员设计的模块能够成完整的系统,预留开发接口,使
能够对情感分析算法进行替换、维护,以便后续对算法进行改进。
3
5、系统测试
对情感分析模块进行实验和测试,并对其准确率、召回率等评价指标进行分析和
系统的完善优化。
五、毕业论文撰写提纲
摘要
第一章绪论
1.1研究背景
1.2国内外发展现状
1.3研究内容及挑战
1.4本论文的结构安排
第二章关于情感分析的相关理论和技术基础
2.1情感分析问题的描述
2.2情感分析的任务
2.3情感倾向析的方法
2.4本章小结
第三章在线评论分析系统中情感分析模块的关键算法研究
3.1情感词典构建算法
3.2面向在线评论文本的情感分析算法
3.2.1在线评论文本的特点
3.2.2面向在线评论文本的情感分析算法研究
3.3本章小结
第四章在线评论分析系统的总体设计
4.1系统需求分析
4.2系统总体结构
4.3本章小结
第五章情感分析模块详细设计与实现
5.1模块工作流程
5.2模块设计
5.3本章小结
第六章情感分析模块展示与测试
6.1模块展示
6.2测试结果与分析
6.3本章小结
4
第七章在线评论分析系统展示与测试
7.1系统展示
7.2测试结果与分析
7.3本章小结
第八章结束语
8.1总结
8.2今后的研发展望
致谢
参考文献
六、实施计划
设计总共用时3个半月左右。
具体安排如下:
2014.12.15——2015.03.20论文选题,收集资料,并完成开题报告。
2015.03.21——2015.03.31学习与整理情感分析模块的相关资料。
2015.04.01——2015.04.30完成情感分析模块的实现和测试工作。
2015.05.01——2015.05.25完成毕业论文。
2015.05.26——2015.06.12完成答辩。
指导教师意见:
指导教师签名:
年月日文献综述内容(与论文主题相关的国内外研究理论、研究方法、进展情况、存在问题、参考依据等):
随着Internet的飞速发展,庞大的Web资源日益演变为人们获得知识与信息的重要来
5
源。
与此同时,由于Web资源的迅速膨胀以及Web信息的分散性与随意性,用户很难通过便捷的方式快速准确地从Web上获取所需的信,每天必须花上大量的时间与精力到各个网站上去浏览并挑出有效的信息。
因此,如何快速有效地对Web信息进行分类和索引以提供面向用户的快速检索访问成为一项重要的研究课题。
薛为民[5]和易高翔[6]等提出文本情感分析对大量的非结构化文本(如文档、电子表格、客户电子邮件、问题查询、网页等)进行分析,抽取文本特征,将文本数据转化为能描述文本内容的结构化或半结构化数据。
然后利用聚类、分类技术和关联分析等数据挖掘技术,形成具有一定结构文本,并根据该结构发现新的概念和相应的关系,获取有用的知识和信息。
然而刘红玉在文献[4]中提出了如下观点,认为目前,国内面向网络舆情分析研究主要存在以下几个方面的挑战:
(1)中文情感词典的构造难度大;
(2)中文语料难以获取;
(3)网络载体多样化,文本类型不一;
(4)准确度与中文分词、命名实体识别、句法分析等工具的准确度正相关不同于英文。
综合目前的国内外研究现状,情感倾向分析有三个基本思路,即基于词典的方法、基于语义的方法和基于分类的方法。
(1)基于词典的方法
Turney等[7]选择了一些经常用来表达情感的语法模式,通过这些模式计算词语之间的PMI(Pointwisemutualinformation)和句子的SO(semanticorientation)值来判断情感倾向。
Qu等[8]引入了“观点袋”模型(bag-of-opinions),将观点分成三元组(情感词,修饰词,否定词)来计算文本的情感等级。
Shen等[9]采用加权计算的方法对微博文本进行情感倾向的判定。
(2)采用机器学习的方式
Pang等[10]在2002年第一次提出这种方法,并使用朴素贝叶斯、支持向量机(supportvectormachines,SVM)和最大熵(maximumentropy,ME)三种分类算法进行尝试,这是一个里程碑式的创新。
Gamon等[11]选择顾客反馈文本作为研究对象。
徐琳宏等[12]使用情感词作为特征,用支持向量机来分析文本的情感倾向。
刘志明等[13]使用朴素贝叶斯、支持向量机和N-Gram三种机器学习算法对微博文本进行了情感倾向分析,对比发现使用支持向量机的效果最好。
(3)基于语义的方法
蔡健平[14]等人以知网[15]根据文本的语义特征计算方法为基础,提出了基于语义距离和语法距离的句子褒贬倾向性分析方法,该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。
克蕾等通过对句子进行依存语法分析,提出了根据语法距
6
离来计算情感修饰词对句子极性的影响,并取得了不错的结果。
由于抽取句子的语义模式比较难,这种方法尚处于研究阶段。
情感分析领域在国外已经有了十几年的发展史,积累了一些情感资源和研究成果,然而国内的研究却刚刚起步(由于语言的差异性,一些国外的研究技术和情感资源无法直接移植到中文处理中。
因此,对于我们来讲,如何结合中文处理的特点,将一些成熟的技术和资源应用到中文情感分析领域,是一个值得我们积极探索的任务。
参考文献:
[1]赵妍妍*,秦兵,刘挺.《文本情感分析》[J].软件学报,2010年08期[2]魏韡,向阳,陈千.《中文文本情感分析综述》[J].计算机应用,2011年12期[3]严孙荣.产品评论的意见挖掘研究与应用[D].北京交通大学,2012年5月[4]刘红玉.《网络舆情情感分析系统的设计与实现》[D].电子科技大学.2013年5月29日[5]薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报.2005,4:
59-63.[6]易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报(自然科学版).2005,(l):
72-74.[7]P.D.Turney.Thumbsuporthumbsdown?
:
semanticorientationappliedtounsupervisedclassificationofreviews[C].Proceedingsofthe40thACL,Philadelphia,2002,417-424[8]L.Z.Qu,G.Ifrim,G.Weikum.Thebag-of-opinionsmethodforreviewratingprediction
fromsparsetextpatterns[C].ProceedingsoftheInternationalConferenceonComputationalLinguistics(COLING-2010),Beijing,2010,913-921
[9]Y.Shen,S.C.Li,L.Zheng,etal.EmotionMiningResearchonMicro-blog[C].Proceedings
ofthe1stIEEESymposiumonWebSociety,Lanzhou,2009,71-75
[10]B.Pang,L.Lee,S.Vaithyanathan.Thumbsup?
sentimentclassificationusingmachine
learningtechniques[C].ProceedingsofConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP-2002),Philadelphia,2002,79-86
[11]M.Gamon.Sentimentclassificationoncustomerfeedbackdata:
noisydata,largefeaturevectors,andtheroleoflinguisticanalysis[C].ProceedingsofInternationalConferenceonComputationalLinguistics(COLING-2004),Switzerland,2004,831
[12]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21
(1):
96-100
[13]刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48
(1):
1-4
[14]蔡健平,林世平.基于机器学习的词语和句子极性分析[C].第三届全国信息检索与内容安全学术会议,2007
[15]中国知网.情感分析用词语集[EB/OL]
7
2007
说明:
1.学生应通过调研和资料搜集(要有10篇以上相关文章的阅读量),主动与指导教师讨论,在指导教师指导下完成开题报告。
开题报告需经各系或论文指导小组讨论、学院教学指导委员会审查合格后,方可正式进入下一步毕业设计(论文)阶段。
2.理、工科开题报告撰写不少于2500字,人文社科开题报告不少于3500字,包括论文选题的背景和意义、工作任务分析、调研报告、方案拟定与分析、毕业论文撰写提纲及实施计划、文献综述(设计类可不提交文献综述)等。
3.开题报告字体为小四号,宋体(英文需用TimesNewRoman字体),行距为固定值20磅。
4.此表一式三份,一份交学院装入毕业设计(论文)档案袋,一份交指导教师,一份学生自存。
8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 开题 报告 文献 综述 在线 评论 分析 系统 情感