书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 语文 > 数据挖掘.docx

数据挖掘.docx

文档编号：7155817
上传时间：2023-01-21
格式：DOCX
页数：15
大小：840.65KB

数据挖掘.docx

《数据挖掘.docx》由会员分享，可在线阅读，更多相关《数据挖掘.docx（15页珍藏版）》请在冰豆网上搜索。

数据挖掘.docx

数据挖掘

第9章结构化数据抽取：

包装器生成

9.1预备知识

9.1.1两种富含数据的网页

图9.1一张列表页的一部分，含两个数据区域

图9.2一张详情页的一部分

图9.3输入页与输出数据表的一个例子

9.1.2数据模型

图9.4嵌套类型的一个例子

9.1.3数据实例的HTML标记编码

图9.5单词和标点符号也被用于数据编码

9.2包装器归纳

图9.6图9.5中饭店网页的类型树

图9.7图9.5中HTML网页的EC树

9.2.1从一张网页抽取

图9.8图9.5中网页的HTML源码

9.2.2学习抽取规则

图9.9训练样例：

四个标好电话区号的地址

图9.10基于序列覆盖的主学习算法

图9.11学习析取规则

图9.12提纯一个析取规则以生成更特殊的候选析取规则

图9.13选择最优析取规则

图9.14全部15个D3的拓扑提纯

9.2.3识别提供信息的样例

9.2.4包装器维护

9.3基于实例的包装器学习

图9.15IDE算法

图9.16price（价格）被唯一确定

9.4自动包装器生成中的一些问题

9.4.1两个抽取问题

9.4.2作为正则表达式的模式

9.5字符串匹配和树匹配

9.5.1字符串编辑距离

图9.17编辑距离矩阵和回溯路径

9.5.2树匹配

图9.18一个一般树匹配的例子

图9.19简单树匹配（STM）算法

图9.20（a）树A;（b）树B;（c）N1和N15第一层子树的m矩阵;

（d）N1和N15第一层子树的W矩阵;（e）（h）下边几层子树的m矩阵和W矩阵

9.6多重对齐

9.6.1中星方法

图9.21中星算法

9.6.2部分树对齐

图9.22扩展种子树：

（a）和（b）有唯一插入；（c）有插入歧义

图9.23部分树对齐算法

图9.24有两轮迭代的迭代树对齐

9.7构建DOM树

图9.25一个HTML编码片段、边界坐标和结果树

9.8基于列表页的抽取：

平坦数据记录

9.8.1有关数据记录的两个观察结果

图9.26一个网页片段的例子

图9.27图9.26中网页片段的DOM树

9.8.2挖掘数据区域

图9.28广义节点和数据区域的说明

图9.29组合与比较

图9.30MDR算法

图9.31一种可能的数据记录布局

9.8.3从数据区域中识别数据记录

9.8.4数据项对齐与抽取

图9.32有多于一个匹配的两棵树：

哪一个是正确的呢

9.8.5利用视觉信息

9.8.6一些其他技术

9.9基于列表页的抽取：

嵌套数据记录

图9.33NET算法

图9.34Match函数

图9.35一个运行实例：

所有匹配的数据项都被链接好了

图9.36生成正则表达式

图9.37生成的NFA及其正则表达式

图9.38由图9.35产生的正则表达式

9.10基于多张网页的抽取

9.10.1采用前几节中的技术

9.10.2RoadRunner算法

图9.43一个包装器生成的例子

9.11一些其他问题

9.11.1从其他网页中抽取

9.11.2析取还是可选

图9.44析取项或是可选项

9.11.3一个集合类型还是一个元组类型

9.11.4标注与整合

9.11.5领域相关的抽取

9.12讨论

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘.docx
链接地址：https://www.bdocx.com/doc/7155817.html

数据挖掘.docx

热门标签