百度相关性评估培训资料:主题匹配度打分Word文件下载.docx
- 文档编号:13076204
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:13
- 大小:87.48KB
百度相关性评估培训资料:主题匹配度打分Word文件下载.docx
《百度相关性评估培训资料:主题匹配度打分Word文件下载.docx》由会员分享,可在线阅读,更多相关《百度相关性评估培训资料:主题匹配度打分Word文件下载.docx(13页珍藏版)》请在冰豆网上搜索。
4.2页面转义判分 6
4.3标题匹配,页面内容差判分 6
4.4命中边框判分 6
4.5作弊页判分 7
4.6权限问题判分 7
4.7死链判分 7
4.8搜索结果页判分 7
5平台注意事项 8
5.1页面异常,直接打开URL查看 8
5.2需要抛弃的情况 8
5.3需要备注的情况 8
6主题匹配度打分与五个维度 8
6.1时效性 8
6.2有效性 8
6.3丰富度 9
6.4便捷性 9
6.5权威度 9
7不同类别的Query判断 9
7.1URL查询 9
7.2人名 10
7.3资源满足类 10
7.4网络小说 10
7.5问答类 11
7.6Key-Value类 11
7.7原文类Query 11
8本篇小结 11
8.1主题匹配度打分标准纲要 11
8.2主题匹配度打分流程图 12
1什么是主题匹配度打分
主题匹配度打分,指评估Query表述的意思(主题)和页面表述的意思(主题)的匹配程度,即判断Query主题和页面主题是否一致及多大程度上一致。
用不同的分值表示二者匹配的程度,这里使用的五个分值依次是4、3、2、1、0。
Ø
Query,也可称查询词、关键词、搜索词,指用户为进行查找而在搜索框中输入的字词。
本文中出现的Query,用“【”、“】”括起来,如【搜狐】、【周杰伦MP3】。
Term,指Query中的一个词。
如【搜狐】,搜狐为一个Term;
【北京二手房】,北京为一个Term,二手房为另一个Term。
URL,也称为网页地址,本文所说的页面即URL对应的网页结果。
2主题匹配度打分的步骤
评估过程的四个步骤:
(1)根据Query表述的意思确定Query主题;
(2)根据页面表述的意思确定页面主题;
(3)判断Query主题和页面主题是否匹配以及多大程度上匹配;
(4)选择合适的分值。
3主题匹配度评分标准
标准概要:
4档——完全匹配
3档——比较匹配
2档——部分匹配
1档——很少匹配
0档——完全不匹配
3.1主题匹配度4档——完全匹配
(1)页面主题和Query主题完全匹配,页面标题不需要完全匹配。
【孕妇最适合的水果】
标题是“最适合孕妇吃的水果”,虽然标题与Query不完全一致,但二者在主题上完全匹配。
【迅雷点任务就崩溃】
标题是“迅雷一点任务就崩溃”,页面内容也是围绕这个主题展开,对于主题匹配标注,不必考虑页面内回答是否真实有效地解决了问题。
(2)页面主题比Query主题略小,但页面主题占Query查询需求的较大比重。
【周杰伦】页面主题是周杰伦的歌曲列表,是Query主题的主要需求方面。
【南京新城市广场美食】
页面主题是南京新城市广场中餐馆,中餐馆是美食的主要方面。
【招聘赶集网】页面为赶集网上海招聘。
这种Query本身包含地域需求,类似的有【天气预报】,页面出北京天气预报,可认为是Query主题的主要方面。
(3)Query主题比页面主题略小,且Query主题是页面中的主要属性。
属性指用来描述某个实体的一种特征,如地名、邮编、手机号码等。
【电影宿醉的英文名称】页面主题介绍了该电影的各个属性,英文片名是主要属性之一。
【武汉大学出版社电话】页面主题是武汉大学出版社的联系方式,电话是其主要属性之一。
(4)原文Query:
页面精确匹配Query,且能唯一的确定某一篇文章。
原文Query:
用户通过一句话来精确查找所需的整篇原文。
不限于文章,可包括:
诗词歌赋、文言文、各类文件、歌词、帖子、试卷中的某道题,关键是完整包含这句话的文章只有固定的一篇。
【这是1996年,霍懋征在政协第八届全国委员会常委会第16次会议上】
Query与新闻中的图片标题精确匹配,确定了固定的一篇新闻。
【关于建立统一的企业职工基本养老保险制度的决定】
以上两条URL都是通过Query精确匹配而确定的固定的一篇文章。
3.2主题匹配度3档——比较匹配
(1)页面主题比Query主题偏小,但页面主题对Query主题起重要作用。
【幻灯片在线制作】
页面主题是一款幻灯片在线制作工具,是Query主题的重要方面。
【将进酒李白】页面主题是《将进酒》教案,是Query主题的重要方面。
【快递查询】页面是圆通快递查询,是Query主题的重要方面。
Query
(2)Query主题比页面主题偏小,只和页面的一部分匹配,其余部分是Query主题的常见扩展或自然外延。
【灵魂和元神的区别】
页面主题是“神识,元神,灵魂,阿那耶识的解释”,Query主题与其中的“灵魂、元神”匹配,页面其他部分与“灵魂、元神”属于同类概念,看作Query主题的常见扩展。
【种植牙对身体有伤害吗】
Query主题与页面中“种植牙的副作用”匹配,页面其他部分“种植牙的定义及优点”伴随“种植牙的副作用”一起出现,看作Query主题的自然外延。
3.3主题匹配度2档——部分匹配
(1)页面主题比Query主题明显偏小,是Query查询需求的次要方面。
【淘米网】
页面主题是淘米网一条相关新闻,是Query主题的次要方面。
【圆通快递】
页面主题是一位客户对圆通快递的评论,是Query主题的次要方面。
(2)Query主题比页面主题明显偏小,只和页面的一部分匹配,其余部分与Query主题领域相关。
【关于丽江句子】
页面主题是《走进丽江》教学设计,页面内有少量关于丽江的句子,其他部分也是围绕丽江。
【姚市余姚市城东路88号】
页面主题是多家企业信息列表,Query与其中的一条信息匹配,其余部分与Query领域相关,同属联系方式。
(3)页面主题是Query主题的扩展或外延,语义重心发生偏离。
【宝安区福利中心】
页面主题是“宝安区福利中心宝馨颐养院的联系方式”,语义重心是宝馨颐养院,而不是福利中心。
【如何经营安利】
页面主题是如何成为安利经营者,是Query主题的扩展,但语义重心偏离“如何经营”。
3.4主题匹配度1档——很少匹配
(1)页面主题和Query主题基本不相关,页面仅有很少部分和Query相关的信息。
【绍兴市韩彬翔】
页面中仅提到这个人的身份。
【临安人民广场】
页面仅仅是提到了这个地方。
(2)页面主题和Query主题领域相关,但丢失了重要的限定成分。
【南开大学艺术理科2010年录取分数线】
页面内容是南开大学2010各省录取分数线,但和艺术无关。
【4399疯狂过山车游戏第9关全攻略】页面是这个游戏,但没有第9关。
(3)页面主题和Query主题领域相关,但是term间关系不符合需求。
【上海到广州软座的火车时刻表】页面内容是广州到上海的火车时刻表。
【qq语音,对方能听能说,但我放歌对方却听不见】
页面内容是“对方听不到我说的话,但能听到我放的歌”,与Query需求不符。
3.5主题匹配度0档——完全不匹配
(1)重要term被拆散,命中页面相互无关的部分,term之间没有联系。
【夏枯草菊花茶】
页面中夏枯草菊花茶被拆成两个部分,之间没有联系,而Query夏枯草菊花茶作为一个整体。
【詹姆斯9投0中】页面主题是“皮尔斯10投0中遭詹姆斯完爆”,重要term被拆散。
(2)丢失重要term,导致页面不符合需求
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 百度 相关性 评估 培训资料 主题 匹配 打分