pages模板下载.docx
- 文档编号:29342356
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:8
- 大小:20.14KB
pages模板下载.docx
《pages模板下载.docx》由会员分享,可在线阅读,更多相关《pages模板下载.docx(8页珍藏版)》请在冰豆网上搜索。
pages模板下载
竭诚为您提供优质文档/双击可除
pages,模板下载
篇一:
文献翻译page-levelwebdataextractionfromtemplatepages
centRalsouthuniVeRsity
本科毕业英文文献翻译
基于模板页面的页面级网络数据提取
摘要:
web数据提取一直是许多web数据分析应用程序的一个重要组成部分。
在本文中,基于结构化数据和树,我们为页面生成的解码过程制定了数据提取问题的模板。
提出了一个非监督的、页面级数据提取的方法来为包含单或多个数据记录的每个单独网站推导出模式和模板。
FiVatech把树匹配、树对齐、挖掘技术用来实现具有挑战性的任务。
在实验中,比起exalg,FiVatech具有更高的精度,并可以与其他记录级萃取系统相比较,例如VipeR和mse。
实验中,用于许多先进的web数据提取工作的测试页面显示了一个令人鼓舞的结果。
关键词——半结构化数据、网络数据提取、多树合并,包装器归纳。
一、引言
众所周知,深层网络包含比表面网站更大的数量级和更多有价值的信息。
然而,由于这些页面的生成是为了可视化而不是数据交换,使得利用这些综合信息需要大量的努力。
因此,从用于网页搜索的网站提取信息成为网络信息集成的一个关键步骤。
为一个给定的搜索形式生成一个提取程序相当于包装一个数据源,这样提取器或包装器程序就能返回数据信息集成的相同的格式。
页面属于同一网站的一个重要特点是,此类页面共享相同的模板,因为他们所有页面都是以一致的方式进行编码的。
换句话说,这些页面是用的同一个预定义的模板插入数据值生成的。
在实践中,模板页面也可以(以静态超链接的形式)存在于表层网站。
例如,商业网站经常有一个模板用于显示公司logo、浏览菜单和版权声明,这样相同的网站的所有页面看起来一致并且是有规划的。
此外,还可以使用模板来呈现一个用来显示相同类型的对象的记录列表。
因此,从模板页面的信息提取可以应用在许多情况下。
模板页面的特别之处在于,对模板网页提取目标几乎是等于在页面生成时的数据值嵌入。
因此,不需要标注非模板页面信息提取的提取目标(如softmealy[5],stalker[9],wien[6]等),自动提取的关键取决于我们是否可以自动推断模板。
一般来说,模板作为所有页面的公共模型,存在相当固定,这与页面数据值的多样化截然相反。
找到这样的一个共同的模板需要多个页面或一个页面包含多个记录作为输入。
当多个页面被给定了,提取目标就针对的是页面范围信息(例如RoadRunner[4],exalg[1])。
给定单个页面时,提取目标通常是限制在记录信息范围内(如iepad[2],dela[11],和depta[14]),其中包括添加记录边界的
检测问题。
虽然不涉及添加边界检测问题,但由于页面级提取任务有更多的数据需要关心,使得它成为比记录级萃取更复杂的任务。
一种常见的技术,用于发现模板对齐:
字符串排列(如。
、iepadRoadRunner)或树对齐(例如depta)。
至于区分模板和数据的问题,大多数方法是假设html标记是模板的一部分,而exalg认为一个一般模型,单词标记也可以是模板的一部分,标签标记也可以数据。
然而,exalg的方法,没有明确使用对齐,产生许多偶然的等价类,使重建的模式不完整。
在本文中,我们关注于页面级提取任务和提出一种新方法,称为FiVatech,用它来自动检测一个网站的模式。
拟议的技术呈现了一种新的结构,称为固定/变异模式树,它是一棵携带所需的所有必要的信息来识别模板和检测数据模式的树。
我们结合几个技术:
对齐、模式挖掘,以及树模板的想法来解决页面级模板建设中更困难的问题。
在实验中,FiVatech比exalg具有更高的精度,exalg是为数不多的页面级萃取系统,可以与其他记录级萃取系统如VipeR和mse相比。
本文接下来的内容组织如下:
第二节定义了数据提取问题。
第三节提供了系统框架以及FiVatech的详细算法,构建固定/变异模式树的一个例子。
第四节描述模板和网站模式推导的细节。
第五节描述了我们的实验。
第六节比较FiVatech与相关网络数据提取技术。
最后,第七节总结了本文。
二、问题公式化
在本节中,我们制定页面创建的模型,它描述了怎样使用一个模板将数据嵌入。
正如我们所知,一个网页是由嵌入数据实例x(取自数据库)到一个预定义的模板生成的。
通常一个cgi程序执行编码函数,结合数据实例和模板来形成网页,在这个网页中所有数据库的实例数据符合共同的模式,可以定义如下(类似的定义也可以在exalg[1]中发现):
定义2.1(结构化数据)
一个数据模式可以是以下类型:
1、一个基本类型β代表一个字符串的符号,符号是一些文本的基本单位。
2、如果τ1,τ2,…,τk是类型,那么他们的有序列表也形成了一个类型τ。
我们说类型τ是由类型τ1,τ2,…,τk使用k阶类型构造函数构造成的。
一个k序列实例τ是的形式,其中x1,x2,…,xk分别是类型τ1,τ2,…,τk的实例。
这就是类型τ。
a、一个元组,记作τ,如果每一个实例体基数(实体中实例的个数)均为1。
b、一个可选,记作τ,如果每一个实例体的基数为0或1。
c、一个集合,记作{k}τ,如果某一些实例体基数大于1。
d、一个析取,记作(τ1|τ2|、、、|τk),如果所有的τi(i=1,2...k)都是可选并且基数其k个可选(τ1、τ2...τk)之和相当于实例体τ的基数1。
例2.1
图1显示了一个虚构的网页来显示一个列表的产品。
对于每个产品给出了产品名称,价格,折扣百分比(可选),和一个特性列表(阴影图中的节点)。
这里的数据实例是{,},其中ε表示空字符串,在第二个产品中他是空的。
这个页面中嵌入的数据实例图1可以通过两种不同的模式s和s’表达,分别如图1b和图1c。
图1b显示了一个集合w1的四个顺序(表示图1a中的产品列表):
前两个属性是基本类型(产品的名称和价格),第三个属性是一个可选w2(折扣百分比),最后一个属性是一个集合w3(产品)的特性列表。
除了这种简洁的表示,相同的数据也可以由他们的父节点的dom(文档对象类型)树来表示。
也就是说,我们可以重新组织上面的数据实例为{>,{”特性11”}>,>,{”特性2_1”,“特性2_2”}>},可以表达成模式s’。
第二种基本数据类型和可选数据(τ4)构成一个二元组τ3(由于每种产品的价格和折扣的可选被嵌入到了网页中同一个父节点下),进一步与第一种基本数据(产品名称)构成另一个二元组(τ2)。
因此,这种新模板s’的根源是一个二元集合(τ1),τ1由τ2和τ5(一元集合)两个部分构成,如图1c所示。
如前所述,模板页面是由在通过cgi程序在一个预定义的模板中嵌入数据实例来生成的。
因此,找寻给定输入网页的模板和数据模式的逆向工程应该建立在一些页面生成模型中,这个我们接下来将会进行描述。
在本文中,我们提出一种基于树的页面生成模型,它由子树连接来编码数据,而不是字符串连接。
这是因为数据模式和网页都是树状结构。
也因此,我们考虑模板树结构。
基于树的页面生成模型的优点是在模板中它不会涉及结束标签(如,等),如同在exalg应用基于字符串的页面生成模型。
图.1.(a)一个网页和它的两个不同模板(b)s,(c)s’
由于子项的数据必须与模板编码形成结果,所以在页面生成模型中连接是一个必需的操作。
例如,用实例x编码一个k阶类型构造函数τ,应该涉及模板树t与x的所有编码树的子项的连接。
然而,树连接更为复杂,因为有多个点附加一个现有树的子树最右边的路径。
因此,我们需要考虑连接树的插入位置。
定义2.2
假设t1和t2是两棵树,我们定义操作
例如,在图2的上半部分给定树的模板c,e和数据内容p,s(分别为“产品1”和“折扣5%”的内容),---------------
图的下半部分我们展示了树连接
和
。
这些树的虚线圈是虚拟节点,帮助树的表示(比如多个路径连接到,来添加t2到树t1的从叶子节点到第i个节点(位置)的最右路径的一棵新的树。
树),可以被忽视。
插入点标记为蓝色实线圈。
对于子树c,插入点是节点,子树p(单节点)被插入在了这里。
对于子树e,插入点是节点
的上一个虚拟节点,子树s(也是单节点)也被插入到了这里。
图中也显示两个子树n(内容数据“现在3:
79美元”)
和
我们通过
作为兄弟节点插入在插入点0的模板d下,表示该操作。
篇二:
dq文件模板
方案审核批准
1.目的
设计确认的目的是用来验证设备供应商所设计的甲苯精馏系统是否符合需方在技术谈判过程中,与供方
所签署的的各项要求;如果在验证过程中,有技术指标发生偏离,应对各项偏离指标进行风险分析和评估。
此设计验证方案的原起草单位是:
________公司
地址:
____电话:
____
传真:
__
此设计验证过程由验证小组完成。
验证小组由供方及需方相关部门共同组成。
供货商负责按照《技术协议书》,对实际交付设备的各项具体参数与之进行比较,并给出验证数据;需方需对整个验证过程进行监督,并根据验证数据,由验证小组最终完成验证,确定验证结论。
对所有验证记录(报告),参加验证人员在验证报告中亲笔签字并注明签字日期。
该验证文档包含_________公司及_____________公司的机密信息,任何人在没有经过上述双方书面批准的前提下,不得以任何理由,任何方式对该文档进行复制。
邮件:
_________
2.范围与职责
2.1范围
该文件适用于_________________公司工业化制备精馏系统的设计确认(dq)。
2.2职责
验证小组负责dq验证的验证计划编制、验证方案的编写以及验证过程的实施。
验证小组由供需双方人员共同组成。
_____________公司dq验证项目的原始数据及验证过程;
_________________公司(需方)负责验证工程的监督及最终结果的确认。
验证小组负责审核测试结果、评价及结论,负责验证报告的会签与批准。
3.设备/系统介绍
4.《技术协议书》偏差表
目的:
确认设计采用了正确的方法并确认该设计符合用户需求。
方法:
将设备文件及图纸与用户需求比较,确认设备/系统设计已结合用户需求
篇三:
wordpress基本函数之wp_list_pages()
wordpress
wordpress初级教程7史网荣誉出品|豆丁网首发
合作伙伴:
申明:
为了便于搜索引擎收录,本教程分开来讲,每一讲为一个单独的函数。
想看全部教程,请从目录中找。
函数名:
wp_list_pages()
基本用法及参数解释:
模板标签wp_list_pages()将wordpress页面作为链接显示出来。
该模板标签常用于自定义侧边栏或标题,也常用于其他模板中。
该模板标签在wordpress1.5及更新版本中可用。
作者原创:
wordpress官方:
|隐藏或改变列表标题
给title_li参数传递一个零值或空值,可以隐藏由wp_list_pages生成的页面列表默认标题。
下面的代码可显示所述效果:
在下面这个例子中,列表中只包含编号为9,5,23的页面,标题内容被改为“poetry”,格式为:
);>
|将页面按页面顺序排列
下面的例子将页面按管理栏中write>page定义的页面顺序进行排列。
如果希望将列表按页面顺序进行排列并将“prose”作为列表标题(以h2格式)显示在侧边栏中,可将以下代码添加到sidebar.php文件中:
);>
使用下列代码段,可显示出无标题并以页面顺序排列的页面:
|将页面按发表日期排列
下列代码显示出的页面将按发表日期进行排列,在页面列表项旁显示日期。
|从列表中排除页面
用exclude参数可隐藏列表中由wp_list_pages生成的若干页面。
|显示列表中特定页面
若仅希望在列表中显示特定页面,例如编号为35,7,26和13的页面,可使用include参数。
);>
|显示子页面
注意:
即使没有子页面,html标签也是必要的(ul或ol)。
用css设置列表时需要将这一点谨记在心。
wp_list_pages(title_li=.$post->id.);>
以下代码仅在目前页面有子页面(将目前页面设为父级页面的页面)的情况下生成列表:
$children
=wp_list_pages(title_li=.$post->id.);
if($children){>
|在子页面上列出子页面
上述示例都是在父级页面上展示子页面,却没有说明如何在子页面上进行展示。
可用下列代码在某一父页面或其中一个子页面上展示子页面。
将本代码放在侧边栏的widget区块后,代码将无法运行。
if($post->post_parent)
$children
=wp_list_pages("title_li=
else
$children
=wp_list_pages("title_li=
if($children){>
本代码也可用在sidebar.php中,仅显示顶级页面。
但浏览到包含子页面的页面时,仅显示其子页面。
浏览主页时在侧边栏显示所有顶级页面
浏览没有子页面的顶级页面时,显示所有顶级页面
浏览有子页面的顶级页面时,显示所有子页面及下一级页面
浏览子页面时,显示其父级页面下的所有子页面和下一级页面
$output=wp_list_pages(echo=0);
if(is_page()){
$page=$pos
t->id;
if($post->post_parent){
$page=$post->post_parent;
}
$children=wp_list_pages(echo=0.$page.);
if($children){
$output=wp_list_pages(echo=0.$page.);
}
}
echo$output;
>
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- pages 模板 下载