新媒体数据分析今日头条推荐算法原理docx.docx
- 文档编号:23065831
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:21
- 大小:237.02KB
新媒体数据分析今日头条推荐算法原理docx.docx
《新媒体数据分析今日头条推荐算法原理docx.docx》由会员分享,可在线阅读,更多相关《新媒体数据分析今日头条推荐算法原理docx.docx(21页珍藏版)》请在冰豆网上搜索。
新媒体数据分析今日头条推荐算法原理docx
今日头条数据分析
拓展阅读
新媒体数据分析
今日头条推荐算法原理
今日头条的内容分发算法一直颇神秘低调。
自12年开发运营起进四次改版,从未透露核心内容。
2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法,希望消除各界对算法的误解。
据悉,今日头条的信息推荐算法目前服务全球亿万用户。
文本特征cosettttS46886994234688699423莎皿述该次不法小皴顷开”
文童Profile
2O48TO0C
U33:
略邕发球风法・■发礼nft
UMH<.存也AW.ST奖侦,,填—■&
887.次眼1。
次,7次.8次,3次.2次,1次,4次
14S5:
恐既慎%奇弓片.外人,X异.诡耿«tt.冷环
1822:
留t“片.产于.鼻实.披a5.O.
1356wt.设计所3T*n曜特
189:
n«.辉纹昼,。
内■技,AB,MH.•««.ttH.呻
4688699423莎皿述该】7次不法小皴07-101318rate:
18顷开”
文童Profile
2O48TO0C
U33:
略邕发球风法・■发礼nft
UMH<.存也AW.ST奖侦,,填—■&
887.次眼1。
次,7次.8次,3次.2次,1次,4次
14S5:
恐既慎%奇弓片.外人,X异.诡耿«tt.冷环
1822:
留t“片.产于.鼻实.披a5.O.
1356wt.设计所3T*n曜特
189:
n«.辉纹昼,。
内■技,AB,MH.•««.ttH.呻
文童Profile
2O48TO0C
U33:
略邕发球风法・■发礼nft
UMH<.存也AW.ST奖侦,,填—■&
887.次眼1。
次,7次.8次,3次.2次,1次,4次
14S5:
恐既慎%奇弓片.外人,X异.诡耿«tt.冷环
1822:
留t“片.产于.鼻实.披a5.O.
1356wt.设计所3T*n曜特
189:
n«.辉纹昼,。
内■技,AB,MH.•««.ttH.呻
文童Profile
2O48TO0C
U33:
略邕发球风法・■发礼nft
UMH<.存也AW.ST奖侦,,填—■&
887.次眼1。
次,7次.8次,3次.2次,1次,4次
14S5:
恐既慎%奇弓片.外人,X异.诡耿«tt.冷环
1822:
留t“片.产于.鼻实.披a5.O.
1356wt.设计所3T*n曜特
189:
n«.辉纹昼,。
内■技,AB,MH.•««.ttH.呻
1297:
法—益达知*球,李2R.C±
Kftii
0.7024
0.9672
0.07”
«9NlsSatic 0.9372 0.0700 陆蜗探什*•长■万斯卡 0.6391 0.041$ 务布尔0舄雄实鼻 03021 0.0353 法公开寒 0.2950 0.0305 0.27S4 0.0207 假设话牙 0.1600 0.01S6 0.KS5 0.00S5 0.1237 今日头条推荐系统主要抽取的文本特征包括以下儿类。 首先是语义标签类特征,显式为文章打上语义标签。 这局部标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。 此外还有隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。 文本特征对于推荐的独特价值-没有文本特征,推荐引擎无法工作-协同类特征无法解决文章冷启动问题-粒度越细的文本特征,冷启动能力越强eg: 【拜仁慕尼黑】VS【体育】 另外文本相似度特征也非常重要。 在头条,曾经用户反应最大的问题之一就是为什么总推荐重复的内容。 这个问题的难点在于,每个人对重复的定义不一样。 举个例子,有人觉得这篇讲皇马和巴萨的文章,昨天已经看过类似内容,今天还说这两个队那就是重复。 但对于一个重度球迷而言,尤其是巴萨的球迷,恨不得所有报道都看一遍。 解决这一问题需要根据判断相似文章的主题、行文、主体等内容,根据这些特征做线上策略。 同样,还有时空特征,分析内容的发生地点以及时效性。 比方武汉限行的事情推给北京用户可能就没有意义。 最后还要考虑质量相关特征,判断内容是否低俗,色情,是否是软文,鸡汤? 语义标签 特征 使用场景 分类 userprofile: 过滤频道内容;推荐召回;推莽特征 概念 过波频道内容;标签搜索: 推荐召回(Like) 实体 过浅务道内容;标签搜索: 推荐召回(Like) 上图是头条语义标签的特征和使用场景。 他们之间层级不同,要求不同。 为什么分层? -每个层级粒度不一样,要求也有区别 的分类,精确性要求不高 的分类,精确性要求不高 的分类,精确性要求不高 分类体系要求覆盖全,希望任何一篇文章,总能找到合适 -实体体系不要求覆盖全,只要覆盖每个领域热门的人物,机构,作品,产品即可・ 分类的目标是覆盖全面,希望每篇内容每段视频都有分类;而实体体系要求精准,相同名字或内容要能明确区分究竟指代哪一个人或物,但不用覆盖很全。 概念体系那么负责解决比较精确又属于抽象概念的语义。 这是我们最初的分类,实践中发现分类和概念在技术上能互用,后来统一用了一套技术架构。 为什么需要语义标签? -隐式语义特征己经可以很好的帮助推荐-语义标签做好的难度和资源投入要远大于隐式语义特征BUT-频道,兴趣表达等重要产品功能需要有一个有明确定义,容易理解的文本标签体系 -语义标签的效果是检查一个公司MP技术水平的试金石 目前,隐式语义特征已经可以很好的帮助推荐,而语义标签需要持续标注,新名词新概念不断出现,标注也要不断迭代。 其做好的难度和资源投入要远大于隐式语义特征,那为什么还需要语义标签? 有一些产品上的需要,比方频道需要有明确定义的分类内容和容易理解的文本标签体系。 语义标签的效果是检查一个公司NLP技术水平的试金石O 今日头条推荐系统的线上分类采用典型的层次化文本分类算法。 最上面Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳等, 足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队等,相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。 有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。 这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类SVM效果很好,有些要结合CNN,有些要结合RNN再处理一下。 实体词识别算法 英超-利物浦o-o菱联,管部亚频频开挂 英超-利物浦o-o菱联,管部亚频频开挂 英超-利物浦o-o菱联,管部亚频频开挂 分词&词性标注 09973I owmI 03351 。 9”51 06八81 卢E C6S591 057I ceszoI 061961 05US1 计算相关性 英超N利物浦NQQ曼联N,德赫亚N.•・ 抽取候选 英超联赛 利物浦足球俱乐部. 利物浦市・曼联俱乐部德的业 英超联赛 利物浦足球俱乐部曼联俱乐部德的亚 去歧 上图是一个实体词识别算法的case。 基于分词结果和词性标注选取候选,期间可能需要根据知识库做一些拼接,有些实体是几个词的组合,要确定哪几个词结合在一起能映射实体的描述。 如果结果映射多个实体还要通过词向量'topic分布甚至词频本身等去歧,最后计算一个相关性模型。 03用户标签 内容分析和用户标签是推荐系统的两大基石。 内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。 头条用户标签概览•兴趣待征: 感兴趣的类别和主题感兴趣的关键词感兴趣的米源基于兴趣的用户裁癸 各种垂直兴趣椅征(车型,体育球队,感兴建股票)•身份特征: 性别年龄常转地点•行为特征: 晚上才看视频 今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。 还有性别、年龄、地点等信息。 性别信息通过用户第三方社交账号登录得到。 年龄信息通常由模型预测,通过机型、阅读时间分布等预估。 常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。 常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。 这些用户标签非常有助于推荐。 主要有哪些策略? ・过滤噪声: 过滤停留时间短的点击,打击标题党-惩罚热点: 用户在热门文章上的动作做降权处理-时间衰减: 随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大-惩罚展现: 如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚 -考虑全局背景: 考虑给定特征的人均点击比例(做Llnorm) 当然最简单的用户标签是浏览过的内容标签。 但这里涉及到一些数据处理策略。 主要包括: 一、过滤噪声。 通过停留时间短的点击,过滤标题党。 二、热点惩罚。 对用户在一些热门文章(如前段时间PGOne的新闻)上的动作做降权处理。 理论上,传播范围较大的内容,置信度会下降。 三、时间衰减。 用户兴趣会发生偏移,因此策略更偏向新的用户行为。 因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。 四、惩罚展现。 如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。 当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。 用户标签批量计算框架-每天抽取昨天使用过头条的用户-抽取这些用户过去两个月的动作数据-在Hodoop集群上批量计算结果 Scribe收集 原始日志 线,篌♦高被盈芬 布式存储系统 导入Kafka 文件队列 写入高世能疯竖 存储系统 导入Hadoop集群 MapReduceJob 批量计算 用户标签挖掘总体比较简单,主要还是刚刚提到的工程挑战。 头条用户标签第一版是批量计算框架,流程比较简单,每天抽取昨天的日活用户过去两个月的动作数据,在Hadoop集群上批量计算结果。 批量计算用户标签的问题计算量太大! 随着: -用户的增长-兴趣模型种类的增加-其它批量处理任务的增加 -批量处理任务当天完成的越来越勉强-集群计算资源紧张影响其它工作-集中写入分布式存储系统的开销越来越高-用户兴趣标签更新延迟越来越高 但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。 2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成己经开始勉强。 集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。 用户标签流式计算框架-用Storm集群实时处理用户动作数据-每收集一定量(botch)的用户数据就重新计算一次用户兴趣模型-用大规模+高性能存储系统支持用户兴趣模型读写 面对这些挑战。 2014年底今日头条上线了用户标签Storm集群流式计算系统。 改成流式之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的CPU时间,大大降低了计算资源开销。 同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。 这套系统从上线一直使用至今。 流式计算和批量计算混合使用・大局部userprofile采用流式计算-各个粒度的兴趣标签-垂直领域profile ・对时效性不敏感的userprofile采用Batch计算-性别,年龄-常驻地点 当然,我们也发现并非所有用户标签都需要流式系统。 像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保存daily更新。 04评估分析 上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好? 有一句我认为非常有智慧的话,〃一个事情没法评估就没法优化〃。 对推荐系统也是一样。 对推荐效果可能产生影响的因素候选内容集合的变化召回模块的改进和增加推荐特征的增加 推荐系统架构的改进算法参数的优化规那么策略的改变 事实上,很多因素都会影响推荐效果。 比方侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的优化等等,不一一举例。 评估的意义就在于,很多优化最终可能是负向效果,并不是优化上线后效果就会改进。 我们需要: -完备的评估体系-强大的实验平台-易用的实验分析工具 全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。 所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。 过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。 目前,我们上线还是要由各业务比较资深的同学组成评审委员会 以下为曹欢欢关于《今日头条算法原理》的分享内容(已获今日头条授权): 回3分钟了解今日头条推荐算法原理 本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容平安等原理。 析签析全分标分安容户估容内用评内 01系统概览 资讯推荐系统本质上要解决用户,环境和资讯的匹配: y=F(Xj,xu,xc) 推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。 第一个维度深入讨论后决定。 很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。 推荐评估体系需要注意的问题兼顾短期指标和长期指标兼顾用户指标和生态指标注意协同效应的影响,有时候需要做彻底的统计隔离 一个良好的评估体系建立需要遵循几个原那么,首先是兼顾短期指标与长期指标。 我在之前公司负责电商方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。 其次,要兼顾用户指标和生态指标。 今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。 还有广告主利益也要考虑,这是多方博弈和平衡的过程。 另外,要注意协同效应的影响。 实验中严格的流量隔离很难做到,要注意外部效应。 为什么需要一个强大的实验平台同时在线的实验多: 每天数百个高效管理和分配实验流量降低实验,分析本钱,提高算法迭代效率 强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。 这能帮助公司降低分析本钱,加快算法迭代效应,使整个系统的算法优化工作能够快速往前推进。 A/BTest实验系统原理 流量分桶 ■■■■■■■■■■■■ 分配实验流显 • 分配实验组 这是头条A/BTest实验系统的基本原理。 首先我们会做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。 举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。 实验过程中用户动作会被,基本上是准实时,每小时都可以看到。 但因为小时数据有波动,通常是以天为时间节点来看。 动作后会有日志处理、分布式统计、写入数据库,非常便捷。 工程师只需要设置: -流量需求 -实验时间 -特殊过滤条件 -实验组ID 系统自动生成: -实验数据比照-实验数据置信度-实验结论总结-实验优化建议 在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组ID。 系统可以自动生成: 实验数据比照、实验数据置信度、实验结论总结以及实验优化建议。 人工抽样评估分析线上实验平台只能通过指标变化推测用户体验数据指标和用户体验存在差异重大改进需要人工评估二次确认 头条利用内部和外包团队进行例行的人工抽样评估 当然,只有实验平台是远远不够的。 线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。 很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。 05内容平安头条的社会责任今日头条已经成为国内最大的综合资讯平台如果1%的推荐内容出现问题,就会产生较大的社会影响 头条从创立伊始就把内容平安放在公司最高优先级队列 最后要介绍今日头条在内容平安上的一些举措。 头条现在已经是国内最大的内容创作与分发凭条,必须越来越重视社会责任和行业领导者的责任。 如果1%的推荐内容出现问题,就会产生较大的影响。 因此头条从创立伊始就把内容平安放在公司最高优先级队列。 成立之初,己经专门设有审核团队负责内容平安。 当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。 现在,今日头条的内容主要来源于两局部,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。 这两局部内容需要通过统一的审核机制。 如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。 UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。 审核通过后,内容会被真正进行推荐。 这时如果收到一定量以上的评论或者举报负向反应,还会再回到复审环节,有问题直接下架。 整个机制相对而言比较健全,作为行业领先者,在内容平安上,今日头条一直用最高的标准要求自己。 风险内容识别技术-鉴黄模型: 构建了千万张图片样本集,通过深度学习算法(ResNet)训练,召回率99%。 -低俗模型: 对文本和图片同时分析,样本库超过百万,准确率80%+,召回率90%+。 不仅处理文章,也对评论做低俗识别。 -谩骂模型: 净化产品评论气氛,识别出不当评论,样本库超过百万,召回率95%+,准确率80%+。 分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型。 今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。 这局部模型更注重召回率,准确率甚至可以牺牲一些。 谩骂模型的样本库同样超过百万,召回率高达95%+,准确率80%+。 如果用户经常出言不讳或者不当的评论,我们有一•些惩罚机制。 泛低质内容识别技术-低质模型是通过对评论做情感分析,结合用户其它的负反应信息(举报、不感兴趣、踩)等信息,来解决很多语义上的低质问题,诸如题文不符、有头无尾、拼凑编造、黑稿谣言等。 -目前低质模型的准确率为70%,召回率为60%,结合人工复审召回率能做到95%。 泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这局部内容由机器理解是非常难的,需要大量反应信息,包括其他样本信息比对。 目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。 目前最终的召回已到达95%,这局部其实还有非常多的工作可以做。 是内容。 头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。 第二个维度是用户特征。 包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。 第三个维度是环境特征。 这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。 结合三方面的维度,模型会给出一个预估,即推测推荐内容在这一-场景下对这一用户是否合适。 这里还有一个问题,如何引入无法直接衡量的目标? 推荐模型中,点击率、阅读时间、点赞、评论、转发包括点赞都是可以量化的目标,能够用模型直接拟合做预估,看线上提升情况可以知道做的好不好。 但一个大体量的推荐系统,服务用户众多,不能完全山指标评估,引入数据指标以外的要素也很重要。 如何引入无法直接衡量的目标? •广告&特型内容频控低俗内容打压&频控标题党,低质,恶心内容打压重要新闻置顶&强插&加权 -低级别账号内容降权 比方广告和特型内容频控。 像问答卡片就是比较特殊的内容形式,其推荐的目标不完全是让用户浏览,还要考虑吸引用户回答为社区贡献内容。 这些内容和普通内容如何混排,怎样控制频控都需要考虑。 此外,平台出于内容生态和社会责任的考量,像低俗内容的打压,标题党、低质内容的打压,重要新闻的置顶、加权、强插,低级别账号内容降权都是算法本身无法完成,需要进一步对内容进行干预。 下面我将简单介绍在上述算法目标的基础上如何对其实现。 前面提到的公式y=F(Xi,Xu,Xc),是一个很经典的监督学习问题。 可实现的方法有很多,比方传统的协同过滤模型,监督学习算法LogisticRegression模型,基于深度学习的模型,FactorizationMachine和GBDT等。 一个优秀的工业级推荐系统需要非常灵活的算法实验平台,可以支持多种算法组合,包括模型结构调整。 因为很难有一套通用的模型架构适用于所有的推荐场景。 现在很流行将LR和DNN结合,前几年Facebook也将LR和GBDT算法做结合。 今日头条旗下几款产品都在沿用同一套强大的算法推荐系统,但根据业务场景不同,模型架构会有所调整。 第一类是相关性特征,就是评估内容的属性和与用户是否匹配。 显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。 像FM模型中也有一些隐性匹配,从用户向量与内容向量的距离可以得出。 第二类是环境特征,包括地理位置、时间。 这些既是bias特征,也能以此构建一些匹配特征。 第三类是热度特征。 包括全局热度、分类热度,主题热度,以及关键词热度等。 内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。 第四类是协同特征,它可以在局部程度上帮助解决所谓算法越推越窄的问题。 协同特征并非考虑用户已有历史。 而是通过用户行为分 析不同用户间相似性,比方点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。 大规模推荐模型的在线训练-用Storm集群实时处理样本数据(点击,展现,收藏,分享)-每收集一定量的用户数据就更新推荐模型-模型参数存储在高性能服务器集群,包含几百亿原始特征和数十亿向量特征 模型的训练上,头条系大局部推荐产品采用实时训练。 实时训练省资源并且反应快,这对信息流产品非常重要。 用户需要行为信息可以被模型快速捕捉并反应至下一刷的推荐效果。 我们线上目前基于storm集群实时处理样本数据,包括点击、展现、收藏、分享等动作类型。 模型参数服务器是内部开发的一套高性能的系统,因为头条数据规模增长太快,类似的开源系统稳定性和性能无法满足,而我们自研的系统底层做了很多针对性的优化,提供了完善运维工具,更适配现有的业务场景。 目前,头条的推荐算法模型在世界范围内也是比较大的,包含几百亿原始特征和数十亿向量特征。 整体的训练过程是线上服务器记录实时特征,导入到Kafka文件队列中,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。 这个过程 中主要的延迟在用户的动作反应延时,因为文章推荐后用户不一定马 中主要的延迟在用户的动作反应延时,因为文章推荐后用户不一定马 中主要的延迟在用户的动作反应延时,因为文章推荐后用户不一定马 上看,不考虑这局部时间,整个系统是几乎实时的。 召回策略设计 荐本钱过高 -基于简化策略的召回模 瀚效平衡计算成 内容库 植模 但因为头条目前的内容量非常大,加上小视频内容有千万级别, 推荐系统不可能所有内容全部由模型预估。 所以需要设计一些召回策 略,每次推荐时从海量内容中筛选出千级别的内容库。 召回策略最重 要的要求是性能要极致,一般超时不能超过50毫秒。 潴繇鬣歌盔魏磊里的响可以是各 兼据瓯■签新丽成章并ranktop结巢 召回策略种类有很多,我们主要用的是倒排的思路。 离线维护一个倒排,这个倒排
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 媒体 数据 分析 今日 推荐 算法 原理 docx