070723B搜索引擎系统应用实践大纲Word文件下载.docx
- 文档编号:22408860
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:23
- 大小:39.76KB
070723B搜索引擎系统应用实践大纲Word文件下载.docx
《070723B搜索引擎系统应用实践大纲Word文件下载.docx》由会员分享,可在线阅读,更多相关《070723B搜索引擎系统应用实践大纲Word文件下载.docx(23页珍藏版)》请在冰豆网上搜索。
章节内容
讲课
实验
其他
合计
1
搜索引擎概述
2
搜索引擎总体结构
网络爬虫的原理与应用
5
7
4
文本内容提取
中文分词的原理与实现
6
信息索引技术
信息查询与评价技术
8
利用开源工具构建小型搜索引擎
9
搜索引擎优化SEO
10
使用Solr实现企业搜索
32
48
四、教学内容
第一章
搜索引擎概述
第一节搜索引擎简介
1.搜索引擎的概念
2.搜索引擎的原理
第二节搜索引擎的历史与发展趋势
1.搜索引擎的发展史
2.搜索引擎的发展趋势
第三节搜索引擎的分类
1.全文搜索引擎
2.目录索引搜索引擎
3.元搜索引擎
4.分布式搜索引擎
第四节搜索引擎的关键技术
1.信息收集和存储技术
2.信息预处理技术
3.信息索引技术
教学重点、难点:
搜索引擎的概念、原理与关键技术。
课程的考核要求:
通过本章的学习,使学生
了解:
搜索引擎的发展、搜索引擎的分类、常用的搜素引擎。
理解:
搜索引擎的分类。
掌握:
搜索引擎的关键技术。
复习思考题:
1.简述搜索引擎的定义。
2.目前常用的搜索引擎有哪些?
3.查文献撰写目前中文搜索引擎的研究进展。
4.简述建立搜索引擎的关键技术。
5.在XX上查找带双引号的“搜索引擎”和不带双引号的搜索引擎,比较查找所用的时间和找到的相关项,解释为什么会是这样的结果。
第二章
搜索引擎总体结构
第一节搜索引擎基本模块
1.搜索器
2.索引器
3.检索器
4.用户接口
第二节搜索引擎的工作原理
1.网页搜集
2.网页处理
3.查询服务
第三节搜索引擎的数据结构
1.存储结构
2.信息库
3.文本索引
4.词典
5.采样表
6.前向索引
7.后向索引
第四节元搜索引擎
1.元搜索引擎的基本构成
2.元搜索引擎的分类
3.常用元搜索引擎
4.元搜索引擎的特点
5.主要技术指标
第五节个性化搜索引擎
第六节智能搜索引擎
搜索引擎的工作原理、搜索引擎的数据结构。
元搜索引擎、个性化搜索引擎、智能搜索引擎。
搜索引擎的体系结构。
1.搜索引擎由哪几部分组成?
2.简述搜索引擎的工作原理。
3.查资料了解搜索引擎的评价指标和参数。
4.比较元搜索引擎和独立搜索引擎的优缺点。
5.分别使用万维搜索()和搜狗(http:
//)搜素关键词“搜索引擎”,比较搜索结果。
第三章
网络爬虫的原理与应用
第一节爬虫的基本原理
第二节爬虫架构
1.基本架构
2.分布式爬虫架构
3.垂直爬虫架构
第三节网页抓取优先策略
1.深度优先策略
2.广度优先策略
3.最佳优先策略
4.不重复抓取策略
5.网页重访策略
6.网页抓取提速策略
第四节抓取网页
1.下载网页的基本方法
2.网页更新
3.抓取限制应对方法
4.URL地址提取
5.抓取动态页面
6.抓取即时信息
7.信息过滤
第五节存储URL地址
1.BerkeleyDB
2.布隆过滤器
第六节并行抓取
1.多线程爬虫
2.垂直搜索的多线程爬虫
3.异步I/O
第七节链接分析
1.存储WEB图
2.PAGERANK算法
3.HITS算法
4.主题相关的PAGERANK
网络爬虫的基本原理、网页抓取优先策略。
并行抓取、Web图的存储和挖掘算法。
抓取网页的实现、PAGERANK算法。
应用:
使用PAGERANK算法计算网页的PageRank值。
1.简述搜索引擎中爬虫的工作原理。
2.除了介绍的开源爬虫外,查资料了解还有哪些搜索引擎爬虫,它们有何特点。
3.从网上下载Jspider爬虫,抓取指定的一个网站,然后分析下载后网页的特点。
4.简述深度优先策略和广度优先策略,并比较它们的特点。
5.除普通搜索引擎之外,还有很多特殊的搜索引擎,查资料了解网页库级垂直搜素引擎所使用的技术及特点。
6.简述布隆过滤器的基本工作原理。
7.编写robots.txt文件,禁止所有搜索引擎爬虫抓取/main/目录,以及/www/目录下的index.html文件。
8.简述PageRank算法中入链对计算页面级别的影响,并进行简单计算。
9.简述PageRank算法中出链对计算页面级别的影响,并进行简单计算。
10.PageRank的原理就是对网页的链接进行分析,反向链接越多,网页越重要,如下图所示的一个网页链接的关系图,根据PageRank的计算公式对网页的pr值进行跌代计算,直到每个网页的PR值稳定为止,列出最终的PR值(假设初始每个网页的pr值为0.33,计算结果小数点后取一位数)。
11.
12.网页的结构如下图所示,写出分别采用深度优先遍历和广度优先遍历策略对上图进行遍历的结果。
第四章
文本内容提取
第一节从HTML文件中提取文本
1.识别网页的编码
2.网页编码转换为字符串编码
3.使用正则表达式提取数据
4.结构化信息提取
5.网页的DOM结构
6.使用NEKOHTML提取信息
7使用JSOUP提取信息
8.网页去噪
9.网页结构相似度计算
10.提取标题
11.提取日期
第二节从非HTML文件中提取文本
1.提取标题的一般方法
2.PDF文件
3.WORD文件
4.RTF文件
5.Excel文件
6.PowerPoint文件
第三节存储提取内容
从各种数据源中提取索引多需要的文本信息。
各种文档格式处理方式、流媒体内容提取。
存储提取内容。
从HTML文件和非HTML文件中提取文本的方法。
各种文件提取文本内容的实现。
1.为什么要对网页的信息进行结构化?
2.网页结构化的目标有哪些?
3.制作一个简单的网页,然后制作成一个DOM树。
4.简述文本处理的过程及步骤。
第五章
中文分词的原理与实现
第一节Lucene中文分词
1.Lucene切分原理
2.Lucene中的Analyzer
3.自己写Analyzer
4.Lietu中文分词
第二节查找词典算法
1.标准Trie树
2.三叉Trie树
第三节中文分词
1.中文分词的原理
2.中文分词的流程与结构
3.形成切分词图
4.概率模型分词
5.N元分词
6.新词与未登录词
第四节词性标注
1.隐马尔可夫模型
2.基于转换的错误学习方法
第五节平滑算法
分词中的查找词典算法。
新词发现、未登录词识别、平滑算法。
Lucene切分原理与流程、Lucene中的Analyzer。
查找词典算法、概率语言模型分词法、词性标准。
1.简述常用的中文分词的方法。
2.上网查找有关中文分词的程序,并比较这些程序的优缺点。
第六章
信息索引技术
第一节顺排检索
1.表展开法
2.逻辑树展开法
3.BF算法
4.KMP算法
5.BM算法
第二节倒排索引
1.倒排索引
2.倒排文档
3.逆波兰表达式
4.检索指令表的生成
5.检索实施
第三节后缀数组索引
1.后缀树概念
2.后缀树原理
3.后缀树存储
4.后缀树的构造
5.后缀数组
6.后缀数组生成算法
第四节文本压缩技术
1.基本概念
2.统计方法
3.字典方法
4.倒排文档压缩
信息索引技术中的倒排文档索引、后缀数组索引和文本压缩技术。
了解顺排文档索引。
倒排文档索引、后缀数组索引和文本压缩技术。
使用统计方法和字典方法进行文本压缩。
1.何为顺排文档检索?
其主要特点是什么?
2.倒排文档索引与顺排文档索引的主要区别是什么?
3.画出science字符串的后缀树。
4.现有8个待编码的符号m0,…,m7,它们的概率如表6.1所示。
使用霍夫曼编码算法求出这8个符号所分配的代码,并填入表中。
表6.1
待编码的符号
概率
分配的代码
代码长度(位数)
m0
0.40
m1
0.20
m2
0.15
m3
0.10
m4
0.07
m5
0.04
m6
0.03
m7
0.01
5.字符流的输入如表6.2所示,使用LZW算法计算输出的码字流,并将码字流中的码字填入表6.3对应的位置。
表6.2
输入位置
11
12
13
14
15
17
…
输入字符流
a
b
c
A
输出码字
表6.3
步骤
位置
词典
(1)
(2)
(3)
6.对下列的文档先进行分词再建立倒排索引,索引列表中要包含文档编号和每个词出现的频率。
(1)农业银行行长跳槽中国银行
(2)农业银行行长加盟中国银行
(3)农业银行行长张云离开农行加盟中国银行
(4)农业银行行长跳槽中国银行与职位调整有关
(5)农业银行行长张云加盟工商银行
第七章
信息查询与评价技术
第一节检索模型
1.经典模型
2.代数模型
第二节检索方法
1.布尔检索
2.加权检索
3.全文检索
4.超文本检索
第三节查询服务
1.查询器原理
2.搜索引擎检索过程
3.指定范围搜索
4.搜索结果排序
5.搜索页面的索引缓存与更新
6.自动摘要生成
第四节相关性
1.相关性的特征
2.相关性类别
3.相关性模型
第五节用户界面
1.历史搜索词记录
2.关键词高亮显示
3.分类统计视图
4.搜索联想词
5.其它功能
第六节搜索引擎评价指标
1.有效性
2.查全率和查准率
3.其他评价指标
检索模型、检索方法、查询服务和检索性能评价。
搜索引擎评价指标。
相关性特征、相关性类别和相关性模型。
检索模型、检索方法、查询服务。
1.什么是布尔模型?
比较布尔模型和向量空间模型的优缺点。
2.简述概率模型的理论并举例说明其应用。
3.布尔检索使用了哪些运算符?
这些运算符哥有何作用?
4.有哪些种类的加权检索?
各有哪些特征?
5.全文检索的主要技术指标有哪些?
6.如何提高全文检索的效率?
7.上网查询有关Web信息检索的关键技术,并撰写相关的论文。
8.何为相关性?
相关性模型有哪些?
各有什么特点?
9.如何评价信息检索系统的有效性?
10.用几个搜索引擎检索自己感兴趣的内容,评价比较各个系统检索的性能。
第八章
利用开源工具构建小型搜索引擎
第一节实例简介
1.搜索引擎的体系结构
2.网页搜集
3.网页预处理
4.查询服务
第二节环境搭建与配置
1.JDK的安装与配置
2.Eclipse的安装与配置
3.Tomcat的安装与配置
4.Heritrix的安装与配置
第三节网页搜集
1.设置Heritrix抓取任务
2.修改Heritrix源代码
3.抓取网页
第四节网页预处理
1.原始网页的处理
2.建立简单的索引
3.为实例建立索引
第五节查询服务
1.结构设计
2.查询设计
3.预搜索设计
4.页面设计
5.网页快照实现
6.部署到Tomcat
用实例构建一个简单的搜索引擎,包含搜索引擎最主要的三个部分,并能提供基本的搜索服务。
Lucene中形成索引的几个关键组件、搜索结果的评分。
配置网络爬虫、建立索引和建立搜索。
构建一个简单的搜索引擎。
1.搜索引擎结构可以划分几个模块,简述每个模块的功能。
2.下载开源网络爬虫Heritrix的源程序,配置网络爬虫,创建一个新的抓取任务并运行和完成抓取。
3.过滤原始网页,计算网页的重要度,并生成摘要。
4.使用IndexWriter建立索引,了解Lucene中形成索引的几个关键组件。
5.使用IndexSearcher进行搜索,了解对搜索结果的评分。
并构建各种类型的搜索,如词条搜索、布尔搜索、前缀搜索、短语搜索、模糊搜索、通配符搜索等。
6.构建一个简单的搜索引擎,熟悉Lucene和Heritrix的使用。
第九章
搜索引擎优化SEO
第一节SEO简介
1.SEO的定义
2.SEO的发展
3.SEO与网站的收录
4.SEO与搜索引擎排名
5.SEO的主要工作
6.SEO的应用
第二节关键词分析与优化
1.选择关键词
2.挖掘关键词
3.网站关键词布局及表现形式
第三节网站的各个页面分析与优化
1.了解网页的结构
2.网页结构对SEO的影响
3.网页中的关键词优化
4.动态网页的SEO的制作
5.网页冗余代码优化
6.页面图片优化
第四节内容和链接的分析与优化
1.内容优化
2.内部链接优化
3.外部链接建设
4.交换链接
5.URL优化方法
第五节SEO效果分析
1.网站流量分析
2.流量来源分析
3.网站页面一般分析
4.页面、内链、外链质量分析
5.网站用户属性分析
6.网站日常分析
第六节SEO工具
1.XX统计
2.站长管理工具
3.其他工具
网站内部优化、网站外部优化。
SEO的发展与应用、SEO工具。
SEO效果分析。
页面分析与优化、内容优化、链接的分析与优化。
使用各种优化方法对网站进行优化。
1.简述网站的日常分析方法。
2.简述URL优化方法。
3.简述网页内容优化的主要内容。
4.简述内部链接优化的主要内容。
5.简述外部链接建设的的主要方面。
6.简述各种链接策略的实现方法。
7.为什么要对网页进行分析,简述网页分析系统的步骤。
8.搜索引擎系统的效率和效果都对用户的需求有重要的影响?
现有的搜索引擎系统应从哪几个方面能够提高搜索引擎系统的效果和效率?
第十章
使用Solr实现企业搜索
第一节Solr简介
第二节Solr基本用法
1.Solr服务器端的配置
2.把数据放进Solr
3.删除数据
4.Solr客户端与搜索界面
5.Spring实现的搜索界面
6.Solr索引库的查找
7.索引分发
8.Solr搜索优化
第三节Solr扩展与定制
1.Solr中字词混合索引
2.相关检索
3.搜索结果去重
4.定制输入输出
5.分布式搜索
6.SolrJ查询分析器
7.扩展SolrJ
8.扩展Solr
9.查询Web图
企业级的搜索服务器Solr的基本用法、对Solr服务器和客户端的扩展,其中对Solr服务器和客户端的扩展是难点。
了解Slor的两种部署方式。
Solr扩展与定制。
Solr基本用法。
使用Solr实现企业搜索。
1.简述Slor的两种部署方式。
2.简述Solr服务器端的配置。
3.简述常用的Solr客户端。
五、考核方式、成绩评定
本课程的考核分为平时考核及期末考核相结合的方式,平时成绩占40%,期末考试成绩占60%。
平时考核采用课下调研撰写报告、课堂案例讨论和上机操作实践等方式,分配比例根据实际任务进行调整。
期末考核采用开卷形式,试题内容以考核学生基本概念、基本理论、基本技能为主,要注重知识应用能力和解决问题能力的考核上,而知识点的记忆和理解要服务于学生能力的提高和巩固。
六、主要参考书及其他内容
[1]刘凡平.大数据搜索引擎原理分析及编程实现.北京:
电子工业出版社.2016年7月
[2]罗刚.解密搜索引擎技术实战:
Lucene&
Java精华版(第2版).北京:
电子工业出版社.2016年1月
[3]山田浩之[日],末永匡[日]著.胡屹译.自制搜索引擎.北京:
人民邮电出版社.2016年1月
[4]痞子瑞.SEO深度解析——全面挖掘搜索引擎优化的核心秘密(第2版).北京:
人民邮电出版社.2016年6月
[5]郑杰.SEO搜索引擎优化:
原理+方法+实战.北京:
人民邮电出版社.2017年1月
[6]潘坚.XXSEO一本通.北京:
电子工业出版社.2015年6月
[7]成龙.Lucene搜索引擎开发进阶实战.北京:
机械工业出版社.2015年1月
[8]李晓明,闫宏飞,王继民著.搜索引擎——原理、技术与系统(第二版).北京:
科学出版社.2012年5月
[9]张俊林.这就是搜索引擎:
核心技术详解.北京:
电子工业出版社.2012年1月
[10]袁津生,李群.搜索引擎基础教程.北京:
清华大学出版社.2010年7月
[11]刘奕群,马少平,洪涛,刘子正.搜索引擎技术基础.北京:
[12]W.BruceCroft,DonaldMetzler,TrevorStrohman.刘挺等译.SearchEnginesInformationRetrievalinPractice.北京:
机械工业出版社.2010年6月
执笔人:
教研室主任:
系教学主任审核签名:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 070723 搜索引擎 系统 应用 实践 大纲