书签 分享 收藏 举报 版权申诉 / 29

类型小猪采集器规则制作DOC.docx

  • 文档编号:27129544
  • 上传时间:2023-06-27
  • 格式:DOCX
  • 页数:29
  • 大小:184.03KB

复制代码

如上面源代码,html代码是闭合的,

开始,

闭合,两个代码成对出现,我们一般称之为一个HTML块。

在小猪编辑器里面,输入

1.

复制代码

,就能提取到标题了,不需要写结尾,规则编辑器会自动匹配结尾。

精准定位的方法:

上例中,有2个段落,需要获得段落2,可以这样写,这样是用class="news"属性来进行一次定位,指定获取第二个

1.class="news"

2.

复制代码

对于不连续的区块,可以通过指定代码的开头和结尾来获取内容。

也可以在规则编辑器中获取不同的区块来组合、排序。

二、Html块删除:

是获取内容的逆反概念,相当于“减法”,针对有时候获取到的内容,中间夹杂了一小段不需要的(比如广告图片、引用语句等),这时候用HTML块删除就比较方便了。

三、标签过滤:

过滤掉html格式代码,以及ubb-html的格式化代码转换。

四、正则过滤:

有固定词替换、前后缀、正则过滤见正则教程。

*P语言:

p语言为特殊处理方法,针对规则编辑器无法正常获取到的内容,有可能需要p语言来处理。

p语言处理后,可以统一用$m_return变量返回结果给规则编辑器调用。

处理过程简述(一般来说获取内容就足够用了,按需使用处理方法,以便处理复杂的网页):

1.第一阶段HTML代码处理:

HTML==获取内容-->p语言-->块删除-->p语言-->标签过滤==UBB

2.第二阶段UBB代码处理:

UBB==正则过滤-->p语言==结果(ubb)

3.第三阶段UBB代码处理:

结果(ubb)==后处理(p语言)==最终结果(ubb)

复制代码

小猪规则解释器采集过程是将网页内容先进行标准化处理,转换成UBB代码后,再按发布网站源程序,自动选择对应的编码发布。

补充:

为了缩小获取内容(不包括标题和下一页)的范围,小猪编辑器引入了有效区域概念,限定采集内容的范围(不包括标题、版块地图、翻页),注意:

有效区域设置不当会获取不到内容。

有效区域的技巧:

只想采集从“版块主题”之后正文网址,可以用第3行

序号

有效区域开始

有效区域结束

有效区域含义

1

只写代码开头

表示循环获取此html块为有效区域,针对列表规则获取链接非常有效

2

版块主题

从网页开头到“版块主题”结束的代码区域,是普通网页的开始代码

3

版块主题

从“版块主题”开始直到代码结束的代码区域,是普通网页的结束代码

下面表格列出了一些常用的html代码,了解这些代码定义,能极大的提高规则制作效率,主要看序号1-5代码,其中标准属性(常用部分),是我们经常用到的定位特征代码,如class="***"(因为这个属性通常来说是唯一的,并且常可以作为识别区--内容识别代码)。

序号

名称/定义

HTML代码

标准属性(常用部分)

链接

代码结束

1

标题

id,class,title

2

文档中的分区或节

id,class,title

3

组合文档中的行内元素

id,class,title

4

锚,链接

id,class,title

href="链接"

5

向网页中嵌入一幅图像

id,class,title

src="图片链接"

6

段落

id,class,title

7

块引用

id,class,title

8

列表项目

  • id,class,title

  • 9

    定义列表

    id,class,title

    10

    列表中的项目(即术语部分)

    id,class,title

    11

    无序列表

      id,class,title

    12

    表格

    id,class,title

    13

    表格内的表头单元格

    id,class,title

    14

    表格中的标准单元格

    id,class,title

    15

    表格中的行

    id,class,title

    16

    规定文本的字体、字体尺寸、字体颜色

    id,class,title

    17

    frameset中的一个特定的窗口(框架)

    id,class,title

    src="链接"

    18

    客户端脚本,比如JavaScript

     

    第六节小猪规则编辑器中,获取及处理内容--“自定义标签”的编辑方法

    上面第五节讲的“配置名”侧重于小猪软件采集规则预置的“标签名”,这一节主要讲解“自定义标签”。

      简单来说,发布的时候就是在发布网页上填写字符表单,而这些字符实际上是对应,预置的“标题”、“正文”等这些“标签名”是常用的,所以小猪采集规则编辑器预置常用的,便于快速编辑采集规则。

      有时候发布网页还有其他的“表单”需要填写,比如分类信息网站常用的“联系人”“联系电话”等信息,这时候就需要用到“自定义标签”。

      分析发布网页,(表单)配置名,请参考帖子:

    登录、发布表单的原理和用法(自定义表单)--轻松自动发布收费、权限贴

    2012-3-220:

    51:

    08上传

    下载附件(97.01KB)

    小猪规则编辑器,可以很方便的添加、修改、或删除“自定义标签”,并且是不限数量的。

    2012-3-220:

    57:

    27上传

    下载附件(77.42KB)

    “自定义标签”是属于表单,所以只支持“字符”,而不支持附件、图片的下载上传。

    补充:

    “正文”中支持图片和附件自动本地化;

    如果需要图片本地化,如商品图片,可以通过预置的“头像”“缩略图”标签;

    如果需要附件、图片本地化,而又要填写到对应的“自定义标签”,那么则需要在采集规则或者发布子规则中进行P语言处理,对表单进行赋值,具体请参考小猪p语言教程。

    自定义标签的“配置名”和“标签名”,可以直接被p语言调用(小猪软件自动处理成局部变量),这样,可以在“后处理”里面使用p语言,对“正文”进行字段重组。

    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    小猪 采集 规则 制作 DOC
    提示  冰豆网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:小猪采集器规则制作DOC.docx
    链接地址:https://www.bdocx.com/doc/27129544.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 冰点文档网站版权所有

    经营许可证编号:鄂ICP备2022015515号-1

    收起
    展开