大数据存储与处理推荐系统优质PPT.pptx
- 文档编号:13608234
- 上传时间:2022-10-12
- 格式:PPTX
- 页数:78
- 大小:4.04MB
大数据存储与处理推荐系统优质PPT.pptx
《大数据存储与处理推荐系统优质PPT.pptx》由会员分享,可在线阅读,更多相关《大数据存储与处理推荐系统优质PPT.pptx(78页珍藏版)》请在冰豆网上搜索。
,推荐,6,Items,Products,websites,blogs,newsitems,推荐类型,编辑收藏列表要目列表简单汇聚Top10,最流行,最新上载为每个用户定制Amazon,Netflix,严格模型,X用户集S项目集效用矩阵UtilityMatrix效用函数Utilityfunctionu:
R评分集,完全有序集例如,0-5星,0,1之间的实数,关键问题,收集已知评分形成R矩阵如何收集效用矩阵中的数据根据已知的评分推断未知的评分主要对未知的高评分感兴趣,只关心用户喜欢什么评估推断方法如何衡量推荐方法的性能,评分的收集,显式评价要求用户对项目给出评分实际中不太可行困扰用户隐式评价从用户的行为中学习其评分e.g.,购买意味着高评分什么代表低评分呢?
效用的推断,关键问题:
效用矩阵U稀疏大多数人没有评价过大多数项目冷启动新的项目没有评分新的用户没有历史3种方法基于内容Content-based协同过滤CollaborativeFiltering基于潜在因素(隐变量)Latentfactorbased,基于内容的推荐系统,12,基于内容的推荐,主要思想:
向用户C推荐与她评分高(喜欢)项目相类似的项目例子:
电影推荐推荐相同演员、导演、流派Websites,blogs,news推荐类似内容的网页,13,推荐的过程,likes,Itemprofiles,RedCirclesTriangles,Userprofile,match,recommend,build,项模型itemprofile,对每个项目建立一份itemprofileProfile是特征features的集合movies:
author,title,actor,director,text:
setof“important”wordsindocument文本特征关键词常用的启发式方法是TF.IDF(TermFrequencytimesInverseDocFrequency)非文本项目特征困难邀请用户进行标记Tag(词语、短语),SunsetatMalibu,Tiananmensquare,Recap:
TF.IDF,fij文档j中词项i出现的频次ni=包含词项i的文档数N=文档数TF.IDF分值wij=TFijIDFiDocprofile=有最高TF.IDF值的词汇及其对应分数的集合,Note:
wenormalizeTFtodiscountfor“longer”documents,用户模型Userprofiles,Userprofile:
反映用户的特征偏好根据项模型统计用户评过项目的项目profile加权平均启发式预测给定用户模型x,项目模型i,估计用户x对于项目i的效用值,基于内容方法的优点,不需要其他用户的数据没有冷启动或者稀疏性的问题能给品味一致的用户推荐能给新项目或不流行项目推荐没有第一个评价者的问题能够提供解释可以对推荐项目给出对应的内容特征描述,18,基于内容方法的缺点,找到适当的特征是困难的e.g.,images,movies,music过度集中不会推荐用户内容偏好模型之外的项目人们可能有多方面的兴趣不能利用其它用户的优质判断对新用户的推荐如何给新用户建立模型?
19,协同过滤collaborativefiltering,20,协同过滤,考虑用户x找到与x有相似评分的用户集合N根据N中用户的评分估计x的评分,21,相似的用户,令rx为用户x的评分矢量Jaccard相似度问题:
忽略了评分的分值余弦相似度Cosinesimilaritymeasure问题:
将缺失项目视为“否定”皮尔森相关系数PearsoncorrelationcoefficientSxy=用户x和用户y共同评价过的项目集合,缺失=否定?
直觉:
sim(A,B)sim(A,C),但是Jaccardsimilarity:
1/50.322(接近)原因:
将缺失分量视为“否定”(取0值,意味最低评价)解决措施:
减去(行)均值中心化,23,simA,Bvs.A,C:
0.092-0.559,注意:
cosinesim.在以零为中心时,就是相关系数,评分预测,rx:
为用户x的评分矢量N:
为对项目i的评分与用户x最相似的k个用户的集合用户x对项目s的评分预测其他方法?
基于项目的协同过滤Item-ItemCF,除了user-user,有另一个角度:
item-item对项目i,寻找其他相似的项目根据相似项目的评分估计项目i的评分可以采用类似user-usermodel的相似度测度,26,27,28,29,30,CF:
基本操作,定义项目i和j的相似度sij选择k个最近邻居N(i;
x)用户x评价过的最类似i的项目以加权平均估计评分rxi,31,Item-ItemvsUser-User,实际中,item-item比user-user的效果好原因?
Item更简单,user往往有多重品味,32,CF的优缺点,适合于任何item不需要特征选择ColdStart:
需要系统中有足够的用户进行匹配稀疏性:
ratings矩阵稀疏,难以发现评价过相同项目的用户第一个评价者无法推荐一个没有被评价过的项目,新项目,隐秘项目流行度偏差无法给只有单一口味的用户推荐项目倾向于推荐流行项目,混合方法,实现两种或多种不同的推荐方法,并组合预测结果比如用线性组合将基于内容的方法与CF相结合建立itemprofile解决新item问题利用人口统计信息解决新用户问题,评估及实际问题,35,36,37,评估预测性能,对比预测值与已知的评分Root-mean-squareerror(RMSE)Precisionattop10Rankcorrelation另一种方法:
0/1model覆盖度系统能够预测的items/users数量精确度预测的精度受试者工作特征Receiveroperatingcharacteristic(ROC)虚报率falsepositives与漏报率falsenegatives之间的均衡曲线,错误测度的问题,有时狭隘地关注精度没有意义PredictionDiversity预测多样性PredictionContext预测情境Orderofpredictions预测顺序实际上仅仅关注对高分的预测RMSE可能会对一个高分预测好低分预测差的方法不利,CF:
复杂度,最费时的步骤是找到k个最相似的用户:
O(|X|)无法实时完成可以预先计算Navepre-computationtakestimeO(N|C|)大数据处理方法高维数据中的最近邻居搜索(LSH)聚类Clustering降维Dimensionalityreduction,40,潜在因素模型Latentfactormodels,41,NetflixPrize,Trainingdata100millionratings,480,000users,17,770movies6yearsofdata:
2000-2005TestdataLastfewratingsofeachuser(2.8million)Evaluationcriterion:
rootmeansquarederror(RMSE)NetflixCinematchRMSE:
0.9514Competition2700+teams$1millionprizefor10%improvementonCinematch,42,TheNetflixUtilityMatrixR,43,UtilityMatrixR:
Evaluation,44,BellKorRecommenderSystem,Netflix挑战赛的获胜者对数据的多尺度建模全局特征Globaleffects用户/电影的总体偏差区域特征RegionaleffectsFactorization局域特征LocalpatternCF,45,Globaleffects,Factorization,Collaborativefiltering,本地及全局特征的模型化,全局电影的平均评分:
3.7星电影TheSixthSense的评分比均值高0.5星用户Joe的评分比均值低0.2星基本估计(baseline):
Joe对TheSixthSense评分4星局域(CF/NN)Joe不喜欢相关的电影Signs最终估计:
Joe对TheSixthSense评分3.8星,46,回顾:
协同过滤CF,最早的最流行的CF方法根据相似的电影推测未知的评分(item-itemvariant)定义i,j两个item的相似度sij选择k个最近邻居,计算ratingN(i;
x):
用户x评价过的与i最接近的项目集合,47,改进评分估计,引入全局偏置量,48,插入权重值,采用加权和代替加权平均值(;
):
用户x评价过的类似电影i的电影集合:
插入权重(实数值)允许(,)模拟电影对的关系(不依赖于用户x),49,如何确定插入权值,误差测度SSE(SumofSquares)在训练数据上找到令SSE最小的权值模拟itemi与其邻居j的关系可以根据用户x和评价过i的所有其他用户学习/估计,50,用最优化求解推荐问题,目标:
好的推荐用SSE评价优度SSE最小化对用户未评价过的项目进行好的推荐很难实际实现选择w矩阵,使其对已知的(user,item)rating的最优期望此w对未知的rating也有好的预测性能如何确定w的取值?
思路:
确定目标函数,求解最优化问题在训练数据上找到使SSE最小的wij,51,梯度下降法求解最优的w,Iterateuntilconvergence:
whereisgradient(derivativeevaluatedondata):
52,Nabla,目标:
最小化SSE,53,求解(学习)权值小结,求解权值基于角色确定权重wij取值,不用任意的相似度显式地考虑相邻电影的相互关系下一步:
LFM提取区域关系,54,LFM,55,LFM,RQPTR有一些缺失项,暂时忽略现在的目标是对已知的评分重建误差最小可以近似视为“SVD(SingularValueDecomposition)”,56,SVD:
A=UVT,评分=Factor的乘积,如何估计缺失的用户x对项目i的评分值?
57,评分=Factor的乘积,如何估计缺失的用户x对项目i的评分值?
58,2.4,LatentFactorModel,59,LatentFactorModel,60,回顾:
SVD,SVDNetflixdata上A=R,Q=U,PT=VTR还有缺失项,61,LFM,62,有缺失项的情况下不能直接用SVD确定P,Q的方法P,Q的列不一定正交或者等长P,Q是users/movies到潜在空间的映射Netflix参赛队中最常用的方法,Factor的数量,目标:
对不可见的测试数据最小化SSE思想:
在训练数据上最小化SSEWantlargef(#offactors)tocaptureallthe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 推荐 系统