数据挖掘.docx
- 文档编号:7155817
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:15
- 大小:840.65KB
数据挖掘.docx
《数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘.docx(15页珍藏版)》请在冰豆网上搜索。
数据挖掘
第9章结构化数据抽取:
包装器生成
9.1预备知识
9.1.1两种富含数据的网页
图9.1一张列表页的一部分,含两个数据区域
图9.2一张详情页的一部分
图9.3输入页与输出数据表的一个例子
9.1.2数据模型
图9.4嵌套类型的一个例子
9.1.3数据实例的HTML标记编码
图9.5单词和标点符号也被用于数据编码
9.2包装器归纳
图9.6图9.5中饭店网页的类型树
图9.7图9.5中HTML网页的EC树
9.2.1从一张网页抽取
图9.8图9.5中网页的HTML源码
9.2.2学习抽取规则
图9.9训练样例:
四个标好电话区号的地址
图9.10基于序列覆盖的主学习算法
图9.11学习析取规则
图9.12提纯一个析取规则以生成更特殊的候选析取规则
图9.13选择最优析取规则
图9.14全部15个D3的拓扑提纯
9.2.3识别提供信息的样例
9.2.4包装器维护
9.3基于实例的包装器学习
图9.15IDE算法
图9.16price(价格)被唯一确定
9.4自动包装器生成中的一些问题
9.4.1两个抽取问题
9.4.2作为正则表达式的模式
9.5字符串匹配和树匹配
9.5.1字符串编辑距离
图9.17编辑距离矩阵和回溯路径
9.5.2树匹配
图9.18一个一般树匹配的例子
图9.19简单树匹配(STM)算法
图9.20(a)树A;(b)树B;(c)N1和N15第一层子树的m矩阵;
(d)N1和N15第一层子树的W矩阵;(e)(h)下边几层子树的m矩阵和W矩阵
9.6多重对齐
9.6.1中星方法
图9.21中星算法
9.6.2部分树对齐
图9.22扩展种子树:
(a)和(b)有唯一插入;(c)有插入歧义
图9.23部分树对齐算法
图9.24有两轮迭代的迭代树对齐
9.7构建DOM树
图9.25一个HTML编码片段、边界坐标和结果树
9.8基于列表页的抽取:
平坦数据记录
9.8.1有关数据记录的两个观察结果
图9.26一个网页片段的例子
图9.27图9.26中网页片段的DOM树
9.8.2挖掘数据区域
图9.28广义节点和数据区域的说明
图9.29组合与比较
图9.30MDR算法
图9.31一种可能的数据记录布局
9.8.3从数据区域中识别数据记录
9.8.4数据项对齐与抽取
图9.32有多于一个匹配的两棵树:
哪一个是正确的呢
9.8.5利用视觉信息
9.8.6一些其他技术
9.9基于列表页的抽取:
嵌套数据记录
图9.33NET算法
图9.34Match函数
图9.35一个运行实例:
所有匹配的数据项都被链接好了
图9.36生成正则表达式
图9.37生成的NFA及其正则表达式
图9.38由图9.35产生的正则表达式
9.10基于多张网页的抽取
9.10.1采用前几节中的技术
9.10.2RoadRunner算法
图9.43一个包装器生成的例子
9.11一些其他问题
9.11.1从其他网页中抽取
9.11.2析取还是可选
图9.44析取项或是可选项
9.11.3一个集合类型还是一个元组类型
9.11.4标注与整合
9.11.5领域相关的抽取
9.12讨论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘