0310推荐系统学习总结.docx
- 文档编号:7613282
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:12
- 大小:3.57MB
0310推荐系统学习总结.docx
《0310推荐系统学习总结.docx》由会员分享,可在线阅读,更多相关《0310推荐系统学习总结.docx(12页珍藏版)》请在冰豆网上搜索。
0310推荐系统学习总结
以下内容为对《推荐系统》这本书的整理,在此感谢作者。
推荐系统
1、推荐系统概述
1.1什么是推荐系统
推荐系统的作用:
i)用于解决当信息过载的时候,用户不能准确、高效的找到自己所需要的信息。
ii)用于引导新用户或对目标不明确的用户发觉所需要的信息。
推荐系统的任务:
通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要的用户,帮助用户发现那些他们感兴趣但很难发现的商品。
1.2推荐系统有哪些应用
应用领域
代表企业
推荐内容
电子商务
亚马逊、阿里巴巴、口袋购物
根据用户历史记录,进行个性化推荐。
根据物品之间的相关度,进行物品的关联推荐。
基于位置等的服务
大众点评、美团、出门问问
利用用户的位置信息以及用户的上下文信息,进行O2O业务中的旅店、餐馆等的推荐。
个性化广告
Google、XX、秒钟
对应计算广告学,依据用户的历史信息进行广告的精准定位投放。
个性化推荐(视频、音乐、输入法、阅读)
豆瓣、优酷土豆、Netflix、YouTube
根据用户历史记录,进行个性化推荐。
根据物品之间的相关度,进行物品的关联推荐。
社交网络
QQ、Facebook、Twitter
利用用户的社交网络信息对用户进行个性化的商品推荐。
利用信息流进行绘画推荐。
利用用户的各种属性信息(包括用户基本资料,用户的聊天内容)进行好友和群组推荐。
1.3推荐系统评测
评价指标:
用户满意度、准确度、覆盖度、新颖度、惊喜度、信任度、实时性、健壮性
1.4推荐系统和搜索引擎、分类目录的区别及发展
推荐系统和搜索引擎、分类目录的目标一致,都是一种用来帮助用户快速的发现有用信息的工具。
但推荐系统和搜索引擎、分类目录也具有如下的不同点。
类型
需求不同点
方法不同点
搜索引擎、分类目录
用户输入关键词、句子等信息
信息检索
推荐系统
用户的需求不明确
从用户的历史行为数据出发,为用户的需求和兴趣建立模型;
在冷启动的情况下,通过热门内容引导等方式进行首次推荐
目前,信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。
传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。
而推荐引擎的出现,使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。
如下图,是推荐引擎的工作原理图。
二、推荐系统的冷启动问题
2.1冷启动分类
i)用户冷启动。
如何给新用户做个性化推荐的问题。
ii)物品冷启动。
如何将新的物品推荐给可能对它感兴趣的用户。
2.2解决方法
2.2.1利用用户属性信息(对应i)
1)用户注册提供的年龄、性别等信息。
2)用户社交网络中,进行用户的社交网络计算,比如通过好友信息,将好友喜欢的物品推荐给用户。
比如通过位置信息,将周边朋友喜欢的物品推荐给用户。
2.2.2引导式启动(对应i)
1)提供非个性化的推荐。
比如热门排行榜、周边排行榜等。
然后等到用户数据收集到一定的时候,在切换为个性化推荐。
2)对话式推荐。
将搜索引擎技术和推荐技术进行融合,通过问答式交互,一步步引导用户发现自己的需求。
2.2.3利用物品内容信息(对应ii)
1)通过物品之间的相似度计算,推荐给喜欢过和它们相似的物品。
2)其中,相似度计算过程中,VSM(向量空间模型)是最常用的内容数据相似度计算模型。
但是,对于语言中的歧义现象(一词多义,一义多词),VSM效果不好,LDA(潜在语义分析)技术很好的解决了这个问题。
LDA的基本思想大体如下:
首先确定内容的话题分布,然后在话题分布的基础上计算关键词的相关性。
2.2.4引入专家知识(对应ii)
引入专家只是,通过一定的高效方式迅速建立起物品的相关度信息。
比如个性化音乐电台应用Pandora公司,通过让音乐人对几万首歌曲进行400多个特征的标注,然后在此基础上进行歌曲之间的相似度计算。
视频公司Jinni利用相似的想法设计了电影基因系统。
三、推荐系统中可利用的特征
3.1利用用户行为信息
i)用户日志(用户ID,用户使用的设备,用户登录地点,用户输入内容……),ii)注册时的基本属性信息
iii)用户点击记录,购买记录,……
3.2利用用户标签信息
3.2.1标签的作用
i)打标签作为一种重要的用户行为,蕴含了很多用户兴趣信息。
我们在进行用户的个性化推荐系统过程中,需要深入了解用户为什么标注、怎么标,只有这样才能发觉用户意图。
同时,通过对整体用户行为标签的分析挖掘出重要信息。
ii)标签形式简单,方便进行算法处理、方便用户快速、准确地了解内容。
3.2.2标签的内容
标签的内容种类繁多,比如图片标签,标签内容为:
时间、人物、动作行为。
书籍标签为:
书籍的类别、书籍的核心关键词、作者等。
餐馆标签为:
餐馆环境等级、服务员服务态度、饭菜质量、价格等。
即依据不同的需求进行标签的标注。
3.3利用上下文信息
在不同的场景下,不同的上下文信息对推荐系统的影响很大。
时间信息,比如在冬天网购,根据历史记录给推荐出来T恤等夏季衣服就是错误的。
地点信息,比如你现在居住在北京寻找餐馆,依据历史记录给你推荐出来的是河南地区的餐馆等。
3.3.1时间信息
3.3.2地点信息
3.4利用社交网络信息
3.4.1社交网络的优点
i)解决冷启动问题;ii)好友推荐可以增加推荐的信任度。
3.4.2社交网络的类型
i)双向确认的社交网络数据
代表企业:
QQ,人人网,Facebook,
特点:
熟人网络
ii)单向关注的社交网络数据
代表企业:
微信,新浪微博,Twitter
特点:
陌生人网络
iii)基于社区的社交网路数据
代表企业:
豆瓣小组
特点:
i)依据某一特点进行聚集(比如:
共同兴趣,同一学校,同一公司等);ii)用户之间没有明确的关系
4、推荐系统的技术
4.1基于关联规则
据
4.2基于协同过滤的推荐
4.2.1基于用户的协同过滤算法(User-basedcollaborativefiltering)
步骤:
1)找到和目标用户兴趣相似的用户集合。
采用用户对同一商品的正负反馈情况确定。
2)找到这个集合用户喜欢,且没有被用户发现的物品推荐给目标用户。
采用集合内用户投票的机制等确定。
4.2.2基于物品的协同过滤算法(Item-basedcollaborativefiltering)
这种算法是目前业界应用最多的算法,亚马逊、YouTube、阿里巴巴等均采用此算法。
步骤:
1)计算物品之间的相似度。
若同一用户点击了物品A,同时也点击了物品B,则认为A和B之间存在联系,即通过同一用户的点击物品关联度来确定物品之间的相似度。
2)根据物品的相似度和用户的历史行为给用户生成推荐列表。
4.2.3两者的综合比较
UserCF
ItemCF
性能
新闻等时效性快的系统、论文等群体行为区分度明显的系统。
电子商务网站、个性化推荐网站(音乐、视频、书籍)等具有长尾物品丰富、用户个性化需求强烈的领域。
侧重反映内容
小群体行为。
当个人行为发生变化时,不能立即反映出来。
用户的历史行为。
当个人行为发生变化时,立即反映出来。
性能
适用于用户较少的场合,因为计算用户相似度矩阵代价很大。
适用于物品数明显少于用户数的场合,因为计算物品相似度矩阵代价很大。
推荐理由
无法给出明确的推荐理由
可以通过用户历史行为和物品之间的相似度给出明确的行为
4.3基于内容的推荐
如何给用户推荐自己喜欢的物品,除了4.2提到的基于协同过滤的算法外,还可以按照如下这样的思路:
首先,将用户按照兴趣进行划分;然后,基于不同的兴趣,推荐用户喜欢的物品。
这就是隐语义模型的核心思想,即:
通过隐含特征联系用户兴趣和物品。
常见的名词包括:
LFM、LDA、LSA、pLSA等。
基于兴趣的分类有如下三个问题:
1)如何给物品分类?
采用基于用户行为统计的自动聚类方法。
同4.2.2ItemCF中计算物品之间的相似度类似。
(通过同一用户的点击物品关联度来给物品分类)。
2)如何确定用户对哪些类的物品感兴趣,以及感兴趣的程度?
通过用户对不同类别中物品的正负反馈来确定,并通过反馈的程度来确定对物品的感兴趣程度。
3)对于一个给定的类,选择哪些属于这个类的物品推荐给用户,以及如何确定这些物品在类中的权重?
利用用户的历史行为信息和物品之间的关联度进行确定。
备注:
鉴于LDA技术内容繁多,在这里不做讲解。
5、推荐系统
推荐引擎架构主要包括3部分,如下图。
i)该部分负责从数据库或者缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量。
不过如果是使用非行为特征,就不需要使用行为提取和分析模块了。
该模块的输出是用户特征向量。
ii)该部分负责将用户的特征向量通过特征-物品相关矩阵转化为初始推荐物品列表。
iii)该部分负责对初始的推荐列表进行过滤、排名等处理,从而生成最终的推荐结果。
六、图示例
更新记录
时间
更新内容
备注
2015年3月10日
初稿完成
初稿包括六部分。
1、推荐系统概述
2、推荐系统的冷启动问题
3、推荐系统中可利用的特征
4、推荐系统的技术
5、推荐系统
6、图示例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 0310 推荐 系统 学习 总结