大众点评POI与评论推荐毕业论文.docx
- 文档编号:354954
- 上传时间:2022-10-09
- 格式:DOCX
- 页数:24
- 大小:475.05KB
大众点评POI与评论推荐毕业论文.docx
《大众点评POI与评论推荐毕业论文.docx》由会员分享,可在线阅读,更多相关《大众点评POI与评论推荐毕业论文.docx(24页珍藏版)》请在冰豆网上搜索。
大众点评POI与评论推荐毕业论文
---文档均为word文档,下载后可直接编辑使用亦可打印---
摘要
随着互联网和移动通信迅猛发展,电子商务强势崛起,越来越多的人倾向于网上消费。
如何从海量的互联网数据中筛选出用户感兴趣的信息成为了全球互联网用户潜在的问题,推荐系统(RecommendationSystem)技术通过搜索大量动态生成的信息来为用户提供个性化的内容和服务来解决这个问题。
推荐系统作为一种信息过滤方式,试图预测用户的偏好兴趣和对物品的评价。
近年来,频繁活跃的互联网用户在消费信息的同时也产出了海量的原创内容。
本文的主要研究工作是深度挖掘用户原创的评论内容,分析出用户和物品的特征,进而进行评分预测。
评论(Comment)指人对于事物做出的客观叙述,反映了人的主观感受。
基于用户的文本评论数据,本文的主要研究工作如下:
首先,从互联网上采集包含有用户、物品和用户文本评论的数据。
该数据集来源于大众点评网。
然后对评论文本进行分词,用词向量对其进行数学表达,形成主题词的分布表。
最后,基于用户文本用评论主题词进行评分预测,通过线性回归模型和改进的协同过滤算法预测评分,最终的实验结果表明,预测的评分客观准确,同时组合的预测算法效果更优。
关键词:
推荐系统;用户评论;线性回归;评分预测
Abstract
WiththerapiddevelopmentoftheInternetandmobilecommunications,andthestrongriseofe-commerce,moreandmorepeopletendtospendonline.HowtofiltertheinformationthatusersareinterestedinfromthemassiveInternetdatahasbecomeapotentialproblemforglobalInternetusers.Recommendationsystemssolvethisproblembysearchingthroughlargevolumeofdynamicallygeneratedinformationtoprovideuserswithpersonalizedcontentandservices.
Therecommendationsystemservesasaninformationfilteringmethodthatattemptstopredicttheuser'spreferenceforinterestandtheevaluationoftheitem.Inrecentyears,frequentandactiveInternetusershavealsoproducedmassiveamountsoforiginalcontentwhileconsuminginformation.Themainresearchworkofthispaperistodeeplymineuser-originatedcommentarycontent,analyzethecharacteristicsofusersanditems,andthenmakescorepredictions.
Commentreflectspeople’ssubjectivefeelings.Basedontheuser'stextreviewdata,themainresearchworkofthispaperisasfollows:
First,datacontaininguser,item,andusertextreviewsiscollectedfromtheInternet.ThisdatasetcomesfromtheDianping’swebsite.Then,thecommenttextissegmentedandmathematicallyexpressedbythewordvector.Thenthetextofthecommentissegmentedandexpressedmathematicallybythewordvectortoformthedistributiontableofthetopicword.
Finally,basedontheuser'scomment,thescoresarepredictedbythesubjectheadings,andthelinearregressionmodelandtheimprovedcollaborativefilteringalgorithmareusedtopredictthescores.Thefinalexperimentalresultsshowthatthepredictedscoresareobjectiveandaccurate,andthecombinedratingpredictionalgorithmismoreeffective.
Keywords:
RecommendationSystem;Users’Comment;LinearRegression;RatingForecast
前言
进入互联网时代后,技术发展日新月异,人类获取信息的数量也急剧增长,从匮乏到当前的过载,信息的获取信息的方式也逐渐多样化。
互联网是当代信息的重要载体,日常活动呈现数字化趋势,形形色色的数据充斥在互联网的网页上,不管是信息的生产者还是消费者,都面临信息处理的难题。
对消费者来说,不借助工具在海量的数据中发掘出自己需要的信息于个人来说几乎不可能,对生产信息的企业和商家来说,如何把产出的信息加工分类,把用户感兴趣的信息推送到用户面前也是巨大的挑战。
推荐系统则可以解决上述的难题,它不仅可以帮助用户过滤不感兴趣的无关信息,而且能发掘出用户潜在的可能喜欢的信息。
因此,推荐系统在数据挖掘领域具有重要的研究价值。
推荐系统可以针对某个用户对某项物品进行模拟的评分预测。
本文主要研究的就是基于用户的文本评论进行深度分析,挖掘用户和物品特征,模拟出用户对物品的评价。
本文的主要工作和创新点如下所示:
(1)利用网络爬虫获取大众点评的餐饮服务数据,包含用户、物品和文本评论数据。
(2)对中文文本评论进行分词处理。
(3)对分词后的文本利用word2vec工具构建成矩阵表达,通过相似度排序得到主题词的分布表。
(4)基于评论的主题分布进行分析,利用线性回归模型训练参数。
用训练后的模型模拟用户对物品的评分预测。
(5)结合协同过滤算法提升(4)的评分预测的准确度。
实验结果充分证明评分预测的准确度较高。
第1章绪论
1.1研究背景
近十多年来,互联网和Web技术迅猛发展,互联网信息呈现爆炸式增长,人类面临信息过载的挑战。
一方面,为了从海量的数据中获取对用户而言有价值的信息,另一方面,为了把信息推广展示给对其有兴趣的用户,推荐系统应运而生。
推荐系统致力于通过分析用户的行为向用户推荐一些物品。
随着电子商务的蓬勃发展,为了为精准获取用户购物反馈,许多电商都提供了针对消费过的商品进行评分和评论的功能。
例如,用户在Yelp和Dianping上为他们购买的产品或他们收到的服务提供评论和数字评级。
这些评论意见包含关于用户的意见和偏好的丰富信息,这对推荐系统可能是有价值的。
但是,在传统方法中,推荐方法考虑的往往是数字评分,而评论意见却被忽略。
因此,面向推荐系统的文本评论的深度挖掘的研究对于提升推荐个性化具有重要价值。
1.2研究意义
在Web2.0时代,用户不仅是信息的消费者,更多的时候扮演的是生产者的角色,大量的用户在互联网上生产原创内容(UserGeneratedContent,UGC)。
增长迅速且形式越来越丰富的UGC数据为更加多维度和细粒度的分析刻画用户特征提供了可能。
近年来,机器学习和文本的情感分析技术不断进步,对于用户产生的文本评论数据进行深度的分析成为了提高推荐系统准确性的重要研究方向。
不同于简单的数字评分,用户的文本评论中往往隐藏了用户想要表达的真实想法和情感,深入分析评论能发掘出用户的行为偏好和决策过程,基于此进行个性化推荐,不仅能够减轻用户筛选信息的负担,主动推送给用户能帮助用户更加便捷发现自己真正想要的物品,甚至能够发掘出潜在的意外惊喜。
推荐给用户想要的商品,对商家来说,无疑会增加用户购买的概率,可能会显著增加销量。
一些推荐系统可以将推荐理由展示给用户,可以大大增加用户对其的信任,会吸引忠实客户。
从文本评论中可以发掘出用户对热门商品和冷门商品的选择背后的驱动力,从而改变营销方式,将冷门商品推荐给需要的人。
最后,很多真正的问题都藏在粗略的文字背后,评论挖掘能够发现当前提供的消费存在的问题,帮助商家做针对性调整以提高消费体验。
1.3研究现状
在线评论对于用户决定购买产品,看电影,去餐厅以及跟踪用户反馈的企业而言是重要资产。
但是,大多数评论是以自由文本格式编写的,因此计算机系统难以理解,分析和汇总。
在推荐系统的研究领域,推荐算法更多关注的是用户的星级评分,而对文本评论的关注程度不高。
少数数据分析学者已经关注到文本被忽略的情况,部分学者在该领域进行了一些尝试。
GayatreeGanu[4]等人在《使用文本评论提高评分预测》一文中考虑了用户评论行为,提出了基于特定和回归的推荐度量,主要评估了文本派生信息对推荐系统评估分数的影响,在句子层面分析和分类了用户评论。
NegarHariri[11]提出了在非机构化文本中基于上下文感知推荐,他们采用了Labeled-LDA建立分类器,利用上下文推断建立监督模型进行评分预测。
国内的YangBao[10]等人提出了了一个称为TopicMF的潜在因素模型,用于通过共同考虑用户评级和非结构化评论来推荐。
具体而言,他们使用偏向矩阵分解模型,将用户项目评分矩阵分解为用于评级预测的潜在用户和项目因子。
同时,采用非负矩阵分解技术从用户非结构化评论文本中推导出主题。
上述的研究可以提供一种思路,可以综合考虑数字评分和文本评论进行预测评分,在处理文本评论时可以考虑从文本主题出发,结合一些现有模型进行评分预测。
1.4本文工作概述
本文的组织结构如下:
第1章绪论
首先简要介绍了推荐系统的研究背景,其次着重深入分析基于文本评论分析的推荐的研究意义,然后对研究现状做了简要介绍。
最后总结出本文的主要组织结构。
第2章相关介绍
本章首先介绍了基于协同过滤和基于内容的推荐,其次对计算相似度的几种指标做了介绍,之后介绍了模型训练中使用的线性回归模型,最后提出了评分预测的评估指标。
第3章数据采集与处理
本章介绍了使用网络爬虫获取数据的过程,简单介绍了爬取过程中遇到的反爬虫问题以及解决方法,之后介绍了数据处理时的分词操作,最后深入介绍了使用词向量工具对文本进行矩阵表达,并最终构建出主题词表。
第4章基于文本评论的评分预测
本章首先阐释了本次研究的主要过程,然后详细阐述实验部分,定义了相关变量,解释了线性回归模型训练的过程,进一步加入组合推荐进行预测,通过对实验结果的对比分析,得出相关结论。
第5章总结与展望
本文最后总结了本次研究的主要过程,同时对以后更深层次的研究工作进行探讨和展望。
第2章相关介绍
推荐系统的核心在于使用的推
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大众 点评 POI 评论 推荐 毕业论文