网络数据挖掘考试重点Word格式文档下载.docx
- 文档编号:16254052
- 上传时间:2022-11-22
- 格式:DOCX
- 页数:22
- 大小:28.56KB
网络数据挖掘考试重点Word格式文档下载.docx
《网络数据挖掘考试重点Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《网络数据挖掘考试重点Word格式文档下载.docx(22页珍藏版)》请在冰豆网上搜索。
()基本架构:
用户查询(关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询等)查询操作(作简单预处理如删除等发送到检索引擎、或处理用户反馈——关联性反馈)索引器(为提高查询效率对原始文档用某种数据结构做索引,形成文档索引——返回文档索引,如倒排索引)检索系统(为每个索引文档计算与查询的相关度分数)
关键字查询
布尔查询
短语查询
邻近查询
全文查询
自然语言查询
预处理
关联性反馈
倒排索引
计算文档与查询的相关度分数
布尔模型(布尔查询:
、、)
向量空间模型(表、-表、查询、相关度排名)
语言模型
概率模型
()查全率()、查准率()、查准率-查全率曲线(曲线)、排名查准率()、
()网页预处理:
移除停用词、词干提取、数字、连字号、标点、字符大小写的处理;
辨别不同的字段;
辨别锚文本;
移除标签;
辨别主要内容块;
()副本探测(对整个文本——算法;
基于元短语的副本探测技术):
即复制页面,可减少索引大小,改善搜索效率;
镜像:
复制站点的技术。
()倒排索引:
是一张列表,包含了每一个不同的词和包含该词的文档列表。
可加快检索和查询的速度。
其本身构建速度也非常快。
记录格式:
〈,[,…]〉
倒排索引的建立及压缩:
搜索引擎——基于向量空间模型和词匹配模型。
爬取网页!
!
元搜索引擎和组合多种排序:
略
网络作弊的概念及分类:
●内容作弊(词组作弊):
标题、元标记、正文、锚文本、网址。
如内容重复、或添加其他不相关的
●链接作弊(影响知名度分数):
链出链接作弊(指向中心页面——目录克隆)或链入链接作弊(创建蜜罐、网络目录中添加链接、用户生成内容是添加链接、交换链接、自发添加等)
●隐藏技术:
内容隐藏(隐藏垃圾项)、掩饰技术(垃圾网络服务器、重定向技术等)
●抵制作弊:
分类处理——区别对待内容作弊、链接作弊、隐藏技术等;
信任排名方法可用。
、主要知识点
(1)系统的基本架构及原理
●用户查询的主要形式:
关键字查询、布尔查询、短语查询、邻近查询、全文查询、自然语言查询的含义
●查询操作
●索引器
●检索系统
(2)信息检索模型
主要有四种信息检索模型:
布尔模型、向量空间模型、语言模型、概率模型。
熟悉布尔模型、向量空间模型的基本原理,了解统计语言模型、概率模型。
布尔模型:
文档表示法、布尔查询、文档检索。
向量空间模型:
文档表示法(词频率表、词逆向文档频率-等)、查询、检出文件以及相关度排名(向量夹角余弦相似度、相关度计算、旋转标准化权值)
(3)信息检索模型的评估标准
查全率()
查准率()
查准率-查全率曲线(曲线)
排名查准率()
()文本和网页的预处理内容
●停用词移除
●词干提取
●数字的预处理
●连字号的预处理
●标点符号的预处理
●字符大小写的预处理
*网页预处理步骤:
●辨别不同的字段:
标题、元数据、正文等
●辨别锚文本
●移除标签
●辨别主要内容块(根据视觉线索分块、树匹配)
●副本探测
()倒排索引及其压缩
●倒排索引的概念:
●使用倒排索引搜索的算法步骤——搜索词汇表、结果合并、计算排名分数
●索引的建立方法:
使用数据结构相比其他的结构更加有效。
●索引的压缩方法:
常用的有两种,即变位模式(一元编码、编码和编码)和变字节模式(整数对应到自定义的二进制编码)。
●索引压缩的解码:
一元编码的解码、变字节编码的解码——了解
()隐式主义索引(略)
()搜索——搜索引擎
搜索引擎的工作步骤:
分解();
索引();
搜索并排序(预处理、利用倒排索引查找含有全部查询词的页面、对页面排序并返回给用户)。
其中排序算法是核心。
搜索引擎的排序算法:
网页质量和网页知名度是排序的重要因素。
可利用超链接(链入链接——算法、链出链接)的数量作为排序网页的指标之一;
内容质量可利用()出现的形式,如标题、锚文本、网址、正文等;
()计数:
以不同形式出现的词的计数;
()位置:
对于以不同出现形式出现的词的位置记录。
基于内容的网页评估分数(分数)与知名度分数的加权和以得到网页的排名分数。
另见第七章中的计算方法。
搜索引擎的两种查询方式:
单词语查询和多词语查询。
网络作弊技术:
使用人为的手段,让一些网页高于其应有的排名。
网页作弊的主要形式:
内容作弊、链接作弊、隐藏技术(内容隐藏、掩饰技术、重定向)、抵制作弊(信任排名等技术)。
(三)()链接分析
1、基本概念
()社会关系网:
是一门研究社会中社会实体(组织中的人、或者叫参与者)以及他们之间的活动与关系的学问。
这种关系或活动可以用网络或图来表示。
()社会网络分析:
分析研究社会关系网络的结构特性,以及每个参与者的职责、位置、威望等属性;
找出各种类型的子图。
●社会网络分析方法:
中心性和权威性。
●中心性(链出)的概念:
链接(连接)、中心参与者。
度中心性(有向图、无向图的度中心性)
接近中心性(无向图、有向图的接近中心性)
中介中心性(无向图、有向图的中介中心性)
●权威性(链入)的概念
度权威
邻近权威
等级权威(、算法)
()同引分析的概念:
用来度量不由自主文档之间的相似性。
引文耦合的概念:
将引用同一篇其他论文的两篇论文联系起来。
两篇论文引用的相同文章数目越多,它们之间就越相似。
算法的基本思想
社区发现的相关概念。
2、主要知识点
()络分析方法:
中心性和权威性,这两种指标对于网络搜索以及链接分析都有非常密切的关系,是社会关系网中参与者的著名程度进行度量的标准。
中心性(链出)的概念:
三种中心性度量:
度中心性(有向图、无向图的度中心性)、接近中心性(无向图、有向图的接近中心性)、中介中心性(无向图、有向图的中介中心性)。
权威性(链入)的概念:
度权威、邻近权威、分级权威(、算法)。
度权威:
邻近权威:
等级权威:
算法:
年月提出。
了解基本思想及原理。
算法的优缺点
可能改进——算法的基本思想。
了解其基本思想。
()掌握同引分析与引文耦合与算法和算法的关系。
算法的优点、缺点及可能的改进。
了解社区发现的基本原理。
(四)()爬取
.基本概念
()爬虫(蜘蛛或机器人):
能自动下载网页的程序。
()爬虫的分类:
通用爬虫、限定爬虫、主题爬虫。
通用爬虫
限定爬虫
主题爬虫
()简单爬虫算法:
种子、队列、页面获取、网页库等模块。
●宽度优先爬虫
●带偏好的爬虫
网页获取网页解析删除无用词、词干提取、链接提取和规范化
爬虫陷井
网页库
爬虫消耗的资源:
网络、中和磁盘。
()爬虫的改进:
实现并发性(并行爬虫架构)。
通用爬虫:
可扩展性、爬虫覆盖率、新鲜度和重要度。
限定爬虫:
能爬取用户感兴趣的某一类网页。
熟悉概念。
主题爬虫:
带偏好爬取网页的爬虫。
了解通用爬虫、限定爬虫、主题爬虫的联系与区别。
简单爬虫算法及改进(并行爬虫)。
限定爬虫算法的基本思想。
主题爬虫的基本原理。
三种爬虫算法的联系与区别
包括——结构化信息抽取、信息集成、观点挖掘。
(五)()结构化数据抽取:
包装器生成
、基本概念
()信息抽取:
从网页中抽取目标信息,包括:
从自然语言文本中抽取信息及从网页的结构化数据中抽取信息。
●包装器:
抽取结构化数据的程序。
●结构化数据:
从后台数据库获取的数据记录,它们按照一定的模板被展现在网页上。
●数据记录
()信息抽取的主要方法:
手工方法、包装器归纳(监督学习方法)、自动抽取(无监督学习方法)。
●数据抽取:
给定由标记编码的数据(网页),抽取系统恢复数据模型并从编码后的数据记录中抽取数据。
即从编码的数据中恢复隐藏的模式。
●列表页
●详情页
●数据模型:
嵌套关系;
基本类型、元组类型、集合类型、平坦元组类型、平坦集合类型;
平坦关系;
集合类型实例;
元组类型实例等。
●数据实例的编码
()包装器归纳的概念及基本原理
树
开始规则结束规则
地标
通配符
析取规则
学习抽取规则:
正规则、负规则
地标提纯
拓朴提纯
包装器学习的重要问题之一:
手工标注训练样例。
费时费力。
可能的包装器归纳学习的改进:
主动学习或协同测试的方法。
●主动学习:
是一种帮助自动识别提供信息的未标注样例的方法。
包装器学习中主动学习步骤:
①从中随机选取一个较小的未标注样例子集;
②手工标注中的样例,并令=-;
③基于标注样例集学习一个包装器;
④将应用于以找到一个提供信息样例的集合;
⑤如果=Ф,则终止,否则转②。
——算法的关键是④步。
●协同测试的方法可用来识别提供信息的样例。
——了解其基本思想。
●包装器维护:
包装器验证问题、包装器修复问题。
——学习目标数据项的特征模式,以监视抽取工作以及检验所抽取的数据项是否正确。
再标注,再学习。
●基于实例的包装器学习:
不用学习抽取规则,而是通过将目标数据项的前缀和后缀标志字符串与对应的标注好的样例进行比较,来从一个新的实例或网页中识别目标数据项。
如果一个未标注的样例中,某个数据项不能被识别。
则它将被交付标注,这是没有附加机制的主动学习。
()自动包装生成中的问题:
手工标注不适合对大量站点的抽取;
包装器维护的开销很大。
●包装器自动生成中的模板:
指代网页设计者所采用的隐藏模板。
●包装器自动生成中的模式:
指代系统所发现的规则结构。
●包装器的应用——两个抽取问题:
基于一张列表页的抽取;
基于多张网页的抽取。
从一组编码好的同种类型的实例中寻找编码模板——检测编码字符串中重复出现的模式。
●信息抽取技术:
字符串匹配和树匹配。
●:
文档对象模型标签树。
●字符串的编辑距离:
即莱文斯坦距离,定义为将串变成串所需要的点突变的最少次数。
●点突变是指下列操作之一——改变一个字符;
插入一个字符;
删除一个字符。
●掌握字符串的对齐算法。
●树匹配中的树编辑距离:
是将树变换为树所需要的最小操作集对应的代价。
●树编辑距离的操作包括:
节点删除;
节点插入和节点替换。
每个操作都被指定了一个代价。
●解树编辑距离问题应时寻找两棵树间的最小代价映射。
●树代价映射的定义
●简单树匹配:
不允许节点替换和层次交叉,的目标是找到两棵树间的最大匹配。
●最大匹配:
设、是两棵树,而∈和∈是和中的两节点,两棵树间的一个匹配定义为一个映射,使得对每一个节点对()∈,(都不是根节点),都有(()())∈。
一个最大匹配就是一个拥有最多节点对的匹配。
了解算法
多重对齐:
产生一个对所有字符串或树的全局对齐任务称为多重对齐。
两种多重对齐算法:
中星方法和部分树对齐。
中星方法
部分树对齐方法:
构建树——标签树。
标签树的构建方法:
标签方法或用标签和视觉提示的方法。
利用标签构建树:
编码清理;
树的构建。
用标签和视觉提示构建树:
通过调用浏览器的渲染引擎找到每一个元素长廊形的四个边界;
依据开始标签序列进行包含检验以构建标签树。
包含检验:
是指检验一个长方形是否被另一个长方形包含。
基于列表页的抽取:
平坦数据记录的抽取
假设网页的树已经构建,给定一个含有多个列表,且每个列表含有多个数据记录的列表页,将执行下列任务:
()识别每个列表(也称为数据区域),即挖掘所有数据区域(挖掘广义节点序列;
比较广义节点;
);
——算法
()将每个列表或数据区域内的数据记录分段,以及;
——识别数据记录、
()对齐数据记录中的数据项以为每一个数据区域产生一个数据表和一个正则表达式。
数据项对齐与抽取;
冲突消解;
利用视觉信息等;
基于列表页的抽取——嵌套数据记录(算法:
后序遍历):
了解
主要知识点
信息抽取的主要方法:
()数据抽取:
列表页详情页
数据模型:
数据实例的编码
●树
●开始规则结束规则
●地标
●通配符
●析取规则
●学习抽取规则:
●地标提纯
●拓朴提纯
——了解
主动学习:
包装器学习中主动学习的算法步骤:
()从中随机选取一个较小的未标注样例子集;
()手工标注中的样例,并令=-;
()基于标注样例集学习一个包装器;
()将应用于以找到一个提供信息样例的集合;
()如果=Ф,则终止,否则转()。
——算法的关键是()步。
协同测试的方法可用来识别提供信息的样例。
包装器维护:
基于实例的包装器学习:
包装器自动生成中的模板:
包装器自动生成中的模式:
包装器的应用——两个抽取问题:
()信息抽取技术:
字符串匹配和树匹配及相关算法。
字符串的编辑距离:
点突变是指下列操作之一——改变一个字符;
掌握字符串的对齐算法。
树匹配中的树编辑距离:
树编辑距离的操作包括:
解树编辑距离问题应时寻找两棵树间的最小代价映射。
树代价映射的定义
简单树匹配:
最大匹配:
中星方法——掌握运用
掌握应用
平坦数据记录抽取流程或算法步骤:
假设网页的树已经构建,给定一个含有多个列表,且每个列表含有多个数据记录的列表页,将执行下列任务(应尽量细化内核):
——算法,
(六)()信息集成
()信息集成:
最初的研究是针对关系数据库和数据仓库。
()全局搜索界面:
是用来产生查询字从而到数据库(深层)中获取相关信息的。
全局搜索界面允许用户输入相关的信息,系统根据用户提供的信息自动填写所有的源搜索界面从而从各个站点获取所。
各站点返回的数据需要经过集成,展示给用户。
()样式表匹配:
是指对于两个或更多个数据库的样式表建立映射,把具有相同意义的属性(或元素)映射到一起。
目的是把多个样式表整合为一张全局的统一的样式表。
()样式表的匹配方法:
半自动化的匹配(有难度,基于启发式的领域知识)或自动匹配(难度很大,产生候选匹配由用户确认……)。
●基于输入信息,样式表匹配的不同类型:
样式表层次的匹配、领域和实例层次的匹配;
样式表、领域、实例整合的匹配。
●样式表匹配的预处理:
分词、扩展、移除无用词和词干提取、词的标准化等。
●匹配类型:
;
●样式表层次的匹配中,主要有两种信息:
样式表中属性的名称、描述等的自然语言词汇(基于语言学的算法——名称匹配、上位关系、基于描述的匹配等);
样式表中的限制(数据类型和数值范围、唯一性、关系类型的的限制等)。
●基于领域和实例层次的匹配:
在数据库中,数据实例易于获得;
有些应用中,属性的领域信息也是可获得的。
●属性的领域分为:
简单领域和复杂领域。
●简单领域是指该领域中的实例值都是简单的,也就是非合成的。
●数据类型:
如果样式表对于属性的类型没有说明,则需要通过属性的实例值来判断元素的数据类型。
●识别数据类型的方法:
半自动方法(即正则表达式匹配的方法)和自动化方法(使用机器学习的方法)。
●匹配算法:
——简单领域匹配算法
●-使用数据类型作为限制信息,建立对应表来描述一系列预定义好的数据类型之间的兼容度。
●-对于数字类型的数据,数值范围、平均值和言状都可以被用来计算他们之间的数据类型的相似度。
●-对于不确定的数据类型,可以抽取和比较两个元素的实例值,以决定其属性是否匹配。
●-对于字母和数字混杂的数据类型,字符串的长度和字母非字母的比例都是非常有用的信息。
●-对于文本数据,可以用夹角余弦计算属性之间的相似度。
●-把样式表元素的名称添加到实例值中进行比较。
●复合的领域和属性:
一个元的复合领域是一个有序的元组,其中第个部分是第个子领域的值,记作。
每个都是一个简单领域。
如果一个属性所有的领域是复合的,则称该属性是复合的属性。
●一个复合领域通常可以通过它的实例值来反映。
往往含有各种形式的分隔符,或其他的特殊单词。
进行复合领域的匹配时,为了保证分隔的正确性,需要大量的实例值。
●算法-一个简单领域与一个复合领域的相似度是通过比较简单领域和复合领域的各个子领域来实现的。
两个复合领域的相似度也是通过比较他们各自所包含的简单子领域的相似性来决定的。
●不同相似度的联合:
可通过多种策略实现——取最大值的策略;
加权和;
加权平均;
机器学习的方法。
匹配——对于类型的匹配;
对于类型的匹配
●样式表匹配的结果的处理:
最热门个候选;
取最大相似度;
阈值筛选等。
把多个搜索界面集成为一个以提供给用户一个全局的搜索因人而异,无需用户逐个手动搜索各个数据源,只需在全局搜索界面上输入所需的信息即可。
●全局搜索界面与普通的信息集成的区别:
在搜索界面中缩写记号使用非常有限;
词汇有限;
中有大量的相似数据库(网页);
附加的结构。
●全局搜索界面集成的方法:
基于聚类的算法;
基于互关系的方法;
基于实例的方法。
●全局搜索界面构建步骤:
●一个良好的全局搜索界面应该满足的条件:
结构上的正确性;
词汇的正确性和实例的正确性。
从单一网站上抽取信息往往是不够的,需要从大量的站点中提取数据,然后对提取出的数据进行集成以便提供增值服务。
对不同的数据而言集成意味着匹配出表示同类信息的列,或者匹配出语义相同但是表达方式不同的值,并可能存放在后台数据库中。
()信息集成的基本方法:
样式表匹配
抽取样式表——样式表预处理——样式表层次的匹配(基于语言学的算法、或基于样式表中限制的算法)、基于领域和实例层次的匹配(简单领域匹配方法——半自动的方法或自动的方法;
复合领域匹配的方法)、样式表领域实例整合的匹配;
——大量样式表的匹配(借助聚类算法、互关系或模式发现算法)——样式表匹配的结果处理(最热门的个候选;
最大相似度;
阈值筛选等)——用户交互(匹配系统搭建;
匹配的后期工作)。
()搜索界面的集成:
全局搜索界面的构建
全局搜索界面样式表:
全局搜索界面构建:
基于聚类的算法、基于互关系的方法、基于实例的方法。
基于聚类的算法:
了解实现思想
基于互关系的方法:
基于实例的方法:
(七)()观点挖掘
●背景:
从网页中抽取的结构化数据通常在网页设计时是来自于一个后台的数据库,并遵循一定的模板格式显示在网页中。
此外,网页中还存在大量的非结构化的文本信息,包括了所有类型的各种有价值的信息,分析这些信息是非常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 数据 挖掘 考试 重点