第二章搜索引擎工作原理.pptx
- 文档编号:2122130
- 上传时间:2022-10-27
- 格式:PPTX
- 页数:36
- 大小:3.05MB
第二章搜索引擎工作原理.pptx
《第二章搜索引擎工作原理.pptx》由会员分享,可在线阅读,更多相关《第二章搜索引擎工作原理.pptx(36页珍藏版)》请在冰豆网上搜索。
第二章搜索引擎工作原理第第一一节节第第二二节节第第三三节节第第四四节节搜索引擎发展简史用发展的眼光看待技术的发展搜索引擎发展简史11994.1,Infoseek:
允许站长提交网址1994.4,Yahoo!
:
DavidFilo和杨致远创立,人工编辑网站目录1994.6,Lycos:
最受欢迎的全文搜索引擎1996.3,创立Google2001.10,百度搜索引擎上线,中文搜索进入百度时代2002.3,GoogleAdwords推出PPC点击付费2004.2,Yahoo!
收购几大搜索公司后,不再使用Google数据和技术2004.11,微软推出MSNSearch,三足鼎立时代2009.6,MSNSearch改名为Bing2010.8,Yahoo!
开始采用Bing搜索数据搜索引擎发展简史1国内搜索引擎发展简史(参考)市场研究公司NetApplications最新数据2013-2014全球搜索引擎市场份额走势搜索引擎发展简史1市场研究公司NetApplications最新数据搜索引擎发展简史1数据来源:
CNZZ第第一一节节第第二二节节第第三三节节第第四四节节搜索引擎分类元搜索引擎全文搜索引擎分类目录搜索引擎分类2搜索引擎:
由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,进行预处理。
用户在搜索框输入关键字后,搜索引擎排序程序从数据库中挑选出符合搜索关键字要求的页面。
其爬行、页面的收录和排序都是自动处理。
搜索引擎分类2全文搜索引擎:
对网站页面文件的全部内容进行索引。
搜索引擎分类2网站目录:
一套人工编辑的分类目录,由编辑人工创建多个层次的目录,站长可以在不同目录中提交网站,目录编辑在后台审核所提交的网站,再放进相应目录中,如:
l雅虎目录l开放目录lhao123搜索引擎分类2元搜索引擎:
元搜索引擎在接受用户查询请求的时候,会同时在多个其他搜索引擎上进行搜索,并将结果进行统筹返回给用户。
lDogpilelVivisimo搜索引擎分类全文搜索引擎和分类目录在使用上各有长短?
2第第一一节节第第二二节节第第三三节节第第四四节节搜索引擎工作原理简介搜索引擎工作原理简介31爬行和抓取2预处理3排名搜索引擎工作过程非常复杂,大体可以分为3个阶段:
搜索引擎工作过程之爬行与抓取3.1爬行与抓取:
搜索引擎蜘蛛通过跟踪链接访问网页,获得网页的HTML代码存入数据库。
搜索引擎用来爬行和访问页面的程序称为蜘蛛(Spider),也称为机器人(Bot),它访问网页时类似于普通用户使用的浏览器。
HTML代码robots.txt原始页面数据库搜索引擎工作过程之爬行与抓取3.1爬行策略:
深度优先vs广度优先AA1A2A3B1B2C1D1D2D3由于蜘蛛的带宽资源和时间限制,就算最大的搜索引擎也只是爬行和收录了互联网的一小部分搜索引擎工作过程之爬行与抓取3.1蜘蛛会尽量抓取重要页面,哪些页面比较重要呢?
网站和页面权重:
质量高、资格老页面更新度导入链接:
只要有链接进入页面就能被蜘蛛发现与首页的点击距离搜索引擎工作过程之爬行与抓取3.1搜索引擎会建立一个地址库,记录以及被发现还没有抓取的,以及已经被抓取的页面。
地址库中的URL来源于:
1、人工录入的种子网站2、爬行后从HTML中解析出新的URL,与地址库进行比对3、站长提交的网址(基本无用)搜索引擎工作过程之预处理3.2预处理也也叫做索引成为最终用户查询排名做好准备后台完成提取文字中文分词去停止词去重正向索引倒排索引链接关系计算特殊文件处理消除噪声搜索引擎工作过程之预处理3.2还包括:
pMeta标签中的文字p图片替代文字pFlash的替代文字p链接锚文字预处理之提取文字搜索引擎工作过程之预处理3.2预处理之中文分词,这一步是中文搜索引擎特有步骤,英文有空格分隔,而中文没有,搜索引擎必须首先分辨哪些字组词一个词,比如“减肥方法”。
中文分词方法基于词典匹配:
将关键字与一个事先造好的词典中的词条进行匹配,匹配成功,即切分出一个单词基于统计的分词方法:
分析大量文本,计算出字与字相邻出现的统计概率,相邻出现越多,则越可能构成一个单词。
演示:
在百度快照中查看分析的结果搜索引擎工作过程之预处理3.2我们能做什么?
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是页面本身,所以SEO人员能做的很少。
唯一能做的就是在页面上以某种方式提示搜索引擎,某几个字应该被当做一个词处理,尤其是容易产生歧义的时候,比如:
“和服”容易和“化妆和服装”相混淆,那么可以特意把“和服”两字标为黑体。
搜索引擎工作过程之预处理3.2预处理之去停止词,页面中出现频率高,却对内容没什么影响的词:
p的、地、得p啊、哈、呀p从而、以、却搜索引擎工作过程之预处理3.2预处理之消除噪声,绝大多数页面上还有一部分内容对页面主题也没什么贡献,比如:
版权声明、导航条、广告等。
例如:
p大多博客都有的“分类”、“联系我们”这类文字消除噪声的基本方法是根据HTML页面对页面分块,区分出页头、导航、正文、页脚、广告等区域,消噪后的内容才能用于排名。
比如:
等标签。
搜索引擎工作过程之预处理3.2预处理之去重,搜索引擎怎么知道一篇文章有没有出现在其他网站上,甚至同一个网站上不同网址呢?
基本方法是对页面特征关键字进行指纹计算。
通常选取10个特征关键词就可以达到比较高的计算准确性。
所以,人为地给文章加上“的”“地”“得”之类的词,或者调换段落顺序等的“伪原创”并不能欺骗搜索引擎。
搜索引擎工作过程之预处理3.2预处理之正向索引,经过以上步骤,就能得到独特的、能反映页面主题内容的、以词为单位的内容,这时搜索引擎就把页面转换成一个关键字组成的集合,同时记录关键词在页面上出现频率、次数、格式(标题标签、黑体、H标签、锚文字等)、位置(正文第一段)。
图:
简化的索引词表结构搜索引擎工作过程之预处理3.2预处理之倒排索引图:
简化的倒排索引结构搜索引擎工作过程之预处理3.2预处理之链接关系计算,现在主流搜索引擎排名计算中都包含网页之间的链接流动信息。
搜索引擎抓取页面后,要计算出:
p有哪些链接指向其他页面p每个页面有哪些导入链接p链接使用了什么锚文字搜索引擎工作过程之预处理3.2预处理之特殊文件处理,现在搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、WORD、PPT、TXT等,但还不能处理图片、视频、Flash这类非文字内容。
搜索引擎工作过程之排名3.3用户在搜索框输入关键词之后,排名程序调用索引库数据库,计算排名给用户,与用户进行实时互动。
进入排名过程前,需要对用户搜索词进行一些预处理:
中文分词去停止词指令处理拼写错误矫正整合搜索触发搜索引擎工作过程之排名3.3图:
倒排索引快速索引文件假设用户搜索“关键词2”和“关键词7”:
搜索引擎工作过程之排名3.3找到匹配文件后,还不能进行相关性技术,因为匹配文件可能达到几百上千万,但是绝大部分用户只会查看搜索结果的前十页,所以搜索引擎也没必要计算那么多页面的相关性。
重点在于用于计算相关性的初始页面子集的选择,最主要的依据就是页面权重。
相关性计算是排名过程中最主要的一步,也是大家最感兴趣的一步。
影响相关性的主要因素:
影响因素关键词常用程度词频及密度关键词位置及形式关键词距离链接分析及页面权重搜索引擎工作过程之排名3.3相关性计算完后,排名大体决定了,之后会对排名进行微调,主要是施加惩罚等;排名显示原始页面的标题、说明文字等,有时需要动态生成页面标签摘要的;根据长尾理论,20%的搜索词占了搜索次数的80%,搜索引擎将常见搜索词的排名结构存入缓存;搜索引擎会将搜索用户的IP地址、搜索关键词、搜索时间,以及点击了哪些结果页面记录下来形成日志,以便今后判断搜索结果质量、调整搜索算法、预测搜索趋势。
第第一一节节第第二二节节第第三三节节第第四四节节搜索引擎面临的挑战搜索引擎面临的挑战4p1、页面抓取需要快而全面p2、海量数据存储p3、索引处理快速有效,具有可扩展性p4、查询处理快速准确p5、判断用户意图及人工智能第第一一节节第第二二节节第第三三节节第第四四节节【预习“关键字优化”部分】继续完成上周网站搭建工作!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 搜索引擎 工作 原理