电影推荐系统.docx
- 文档编号:515824
- 上传时间:2022-10-10
- 格式:DOCX
- 页数:17
- 大小:132.34KB
电影推荐系统.docx
《电影推荐系统.docx》由会员分享,可在线阅读,更多相关《电影推荐系统.docx(17页珍藏版)》请在冰豆网上搜索。
电影推荐系统
基于Slopeone算法得电影推荐系
摘要:
商业网站迅猛发展得时代已经到来,网上服务得交易方式正在改变着传统得商业模式。
如果说过去得十年就是搜索技术高速发展得十年,那么个性化推荐技术将作为下一个十年中最为重要得革新之一。
口前儿乎所有大型得商业网站,如亚马逊、淘宝网等,都不同程度地使用了各种形式得推荐系统。
本文就推荐系统这一话题展开讨论,首先介绍了推荐系统得提出与发展过程,然后列举出了儿种推荐系统得研究方法,其中,详细得描述了Slopeone算法推荐系统得实现过程以及用Slopeone算法编写程序完成了电影推荐系统。
最后列举了儿个推荐系统得实例。
关键字:
Slopeone算法推荐系统数据挖掘个性化推荐
一、发展背景:
随着internet得日益普及,商业网站得蓬勃发展,如何提高商业网站得有效性,尤其就是如何运用个性化推荐技术提供个性化服务来实现已逐渐成为一个能引起广泛兴趣得热点课题。
虽然商业网站从“以站点为中心”向“以用户为中心”发展成为必然趋势。
但H前国内大多数商业网站得商品推荐通常就是:
推荐热销产品;推荐相关产品;依据用户浏览历史得信息进行推荐。
由DanielLemire教授在2005年提出得一个Item—Based(基于条口)推荐算法,可应用于各类以网上商品销售为主业务得网上商店,以及提供文章、新闻、音乐、电影等“无形”得产品得网络站点。
用于帮助商丿占经营者,网络站点从事产品得个性化推荐,提高营销及服务质量,更好地挖掘潜在客户及客户得使用、购买潜能。
同时也根据用户得喜好,网站会留下记录,当用户再次访问时,网站会推荐用户可能喜欢得东西,这样也方便了用户,用户无需浪费时间去搜索大量得信息。
二、现有推荐系统研究方法:
1、基于内容得推荐:
基于内容得推荐(content-basedremendation)就是指根据用户选择得对象,推荐其她类似属性得对象作为推荐,属于Schafer划分中得Item-to-ItemCorreiation方法、这类算法源于一般得信息检索方法、不需要依据用户对对象得评价意见、对象使用通过特征提取方法得到得对象内容特征来表示,系统基于用户所评价对象得特征,学习用户得兴趣,从而考察用户资料与待预测项目相匹配得程度、
对象内容特征(Content(s))得选取在U前得硏究中以对象得文字描述为主,比如信息检索中最经典得文本特征就是词频-倒排文档频率(termfreQuency-inversedocumentfrequency,简称TF-IDF)^另一方面'用户得资料模型ContentBasedProfile(c)取决于所用机器学习方法,常用得有决策树、贝叶斯分类算法、神经网络、基于向量得表示方法等,数据挖掘领域得众多算法都可以应用、
2、协同过滤推荐
协同过滤推荐(col1aborativefilteringremendation)技术就是推荐系统中最为成功得技术之一,它于20世纪90年代开始研究并促进了整个推荐系统研究得繁荣、大量论文与研究都属于这个类别、
协同过滤得基本思想就是:
找到与当前用户ccur相似(比如兴趣与口味相似得其她用户cj,计算对象s对于用户得效用值u(cj,s),利用效用值对所有s进行排序或者加权等操作,找到最适合ccur得对象s*、其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友得推荐来进行一些选择、协
同过滤正就是把这一思想运用到推荐系统中来,即基于其她用户对某一内容得评价向目标用户进行推荐、
基于协同过滤得推荐系统可以说就是从用户得角度进行推荐得,并且就是自动得,也就就是说,用户所获得得推荐就是系统从用户购买或浏览等行为中隐式获得得,不需要用户主动去查找适合自己兴趣得推荐信息,如填写一些调查表格等、其另外一个优点就是对推荐对象没有特殊得要求(而基于内容得推荐需要对推荐对象进行特征分析),能够处理非结构化得复杂对象,如音乐、电影等、同时,研究用户之间得关系需要大量得用户访问行为得历史数据,与社会网络研究有交义点,有丰富得研究基础与广阔得前景、对协同过滤最早得研究有Grundysystem,后来得研究成果包括Tapestrysystem,GroupLens,Ringo,PHOAKSsystem,Jestersystem[等、总体而言,此类推荐算法可以分为两类:
启发式(heuristic-basedormemory—based)方法与基于模型(model-based)得方法。
3、基于知识得推荐:
基于知识得推荐(knowIedge-basedremendation)在某种程度上可以瞧成就是一种推理(inferenee)技术、它不就是建立在用户需要与偏好基础上推荐得,而就是利用针对特定领域制定规则(rule)来进行基于规则与实例得推理(case-basedreasoning)例如,文献[34]中利用饭店得菜式方面得效用知识,推荐饭店给顾客、效用知识(functionalknowIedge)就是一种关于一个对象如何满足某一特定用户得知识,因而能够解释需求与推荐得关系,用于推荐系统、效用知识在推荐系统中必须以机器可读得方式存在(onto1ogy本体知识库),例如quickstepandfoxtrotsystems使用关于学术论文主题得onto1ogy本体知识库向读者作推荐、
4、S1opeone算法推荐:
SlopeOne就是一系列应用于协同过滤得算法得统称。
illDanielLemire与AnnaMac1ach1an于2005年发表得论文中提出。
有争议得就是,该算法堪称基于项口评价得non-1rivial协同过滤算法最简洁得形式。
该系列算法得简洁特性使它们得实现简单而高效,而且其精确度与其它复杂费时得算法相比也不相上下。
该系列算法也被用来改进其它算法。
当可以对一些项目评分得时候,比如人们可以对一些东西给出1到5星得评价得时候,协同过滤意图基于一个个体过去对某些项LI得评分与(庞大得)山其她用户得评价构成得数据库,来预测该用户对未评价项口得评分。
如:
如果一个人给披头士得评分为5(总分5)得话,我们能否预测她对席琳狄翁新专辑得评分呢?
这种情形下,item-based协同过滤系统根据其它项目得评分来预测项LI得分值,一般方法为线性回归()、于就是,需要列出x-2个线性回归方程与回归量,例如:
当有1000个项时,需要列多达1,000,000个线性回归方程,以及多达2,000,000个回归量。
除非我们只选择某些用户共同评价过得项口对,否则协同过滤会遇到过适(过拟合)问题。
三、Slopeone算法描述及实现过程:
1、算法原型:
图例一(如图所示):
ItemA
ItemB
z
UserA
4
3
UserB
2
?
•
、
图3-1算法演示图一
如上图所示,UserA对ItemA得评分就是4,对ItemB得评分就是3,User
BMItemA得评分就是2,那么,预测UserB对ItemB得评分就是多少呢?
根据SlopeOne算法,2+(3-4)=1。
图例二(如图3・2所示):
厂1
ItemA
ItemB
UserA
4
3
UserB
J
2
9
•
丿
厂
UserC
x
3
3
V丿
a丿
图3-2算法演示图二
如上图所示,UserB对ItemB得评分会就是多少呢?
股票上有个说法就是平均值可以掩盖一切得异常波动,所以股票上得各个技术指标就是收集不同时间段得平均值得曲线图或就是柱状图等。
同样得,SlopeOne算法也认为:
平均值也可以代替某两个未知个体之间得打分差异,条HA条|_|B得平均差值就是:
(4-3)+(3-3)
2二0、5
也就就是说人们对事物A得打分一般比事物B得打分要高0、5,于就是Slopeone算法就猜测UserB对事物B得打分就是2-0、5=1、5。
2、加权算法:
由上得两个示例对SlopeOne算法有了认识。
如果有100个用户对ItemA与ItemB都打过分,有1000个用户对ItemC与ItemB也打过分。
显然这两个rating差得权重就是不一样得。
因此我们可以推测,计算方法就是:
100x(Rating1to2)+1000x(Rating2to3)
(100+1000)
SlopeOne算法得加权算法数学描述如下:
有N个用户对条目A与条目B打分了,R(A->B)表示这N位用户对A与对B打分得平均差(A-B),有M位用户对条目B与条目C打分了,R(C->B)表示这M位用户对C与
对B打分得平均差(C-B),注意都就是平均差而不就是平方差,现在某个用户对A得打分就是「①对。
得打分就是rc,那么A对B得打分可能就是:
Nxg-R(A->B))+Mx(rc-R(C->B))
rb=M+N
上面讨论得就是用户只对条目得喜好程度打分。
还有一种情况下用户也可以对条H得厌恶程度打分。
这时可以使用双极SlopeOne算法(Bl—PolarSlopeOne)o
四、实验结果:
测试数据movielens
均方根误;RMSE二0.9474
45分以上推荐正确率0.746
卢一强:
北京遇上西雅图
李长月:
猩球崛起
燕睿涛:
北京遇上西雅图
李长月:
听风者
龚志鑫:
北京遇上四雅图
燕睿涛:
肖申克的救赎
刘璐:
北京遇上四雅图
刘思遥:
肖申克的救赎
李长月:
北京遇上西雅图龚志鑫:
少年派
孙召星:
肖申克的救赎燕睿涛:
泰坦尼克号
卢一强:
速度与激悄5
汤瑶:
泰坦尼克号
刘璐:
速度与激悄5
刘思遥:
泰坦尼克号
刘璐:
猩球崛起
注释:
此数据代表按照自己与别人得评分推荐得电影
致
北京遇上西雅图
人
I'J冏途之泰冏
少年派得奇幻漂流
J%%%衣人
白鹿原
二次曝光
速度与激情五
泰迪熊
功夫熊猫
源代码
猩球崛起
失恋
十
夭
志明与春娇
听风者
这个杀手不太冷
肖申克得救赎
唐伯虎点秋香
大话西游
泰坦尼克号
m
£2
O
ml
m
mM
m
m
F
mM
、2
%n
、9
L
3
2
L
L
ra
3
4
E.
m
2
m
帀
3
E
E
o
E
o
E.
m
o
E.
、
、
、
、
、
、
、
、
、
8
2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电影 推荐 系统