书签分享收藏举报版权申诉 / 29

立即下载加入VIP,免费下载

当前位置：首页 > IT计算机 > 电脑基础知识 > 小猪采集器规则制作DOC.docx

小猪采集器规则制作DOC.docx

文档编号：27129544
上传时间：2023-06-27
格式：DOCX
页数：29
大小：184.03KB

小猪采集器规则制作DOC.docx

《小猪采集器规则制作DOC.docx》由会员分享，可在线阅读，更多相关《小猪采集器规则制作DOC.docx（29页珍藏版）》请在冰豆网上搜索。

小猪采集器规则制作DOC.docx

小猪采集器规则制作DOC

1.何时才需要做小猪采集规则

小猪内置了数百种采集规则（内置规则无法修改），方便了用户使用，不过网页（模板）是千变万化的，当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候，就需要制作采集规则了。

注意点：

小猪采集规则主要功能是提取字符、网址；

采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制，并且这些是运行均是自动化的。

2.小猪采集规则的作用

采集规则，顾名思义，就是采集用的，将网页上的内容提取整理成适合的形式，以便于发布到网站或者存储到CSV数据表格里面。

补充：

小猪采集规则实际包含了采集规则+发布规则，这么设计的好处，可以处理交互式的网页，实现自动登录、回复、购买等互动采集，普通采集器很难实现这些互动处理，比如在论坛的帖子页，可以采集这个帖子，也可以对这个帖子进行回复后再采集，当然，大部分情况下是不需要做发布规则的，请按需选择。

3.小猪采集规则的兼容性

小猪的采集规则处理的对象是“网页模板”，普通的网站一般只用一套模板，这种网页就有规律可循，比如相同模板的列表页只需要制作一条列表采集规则。

小结：

网站的发布内容展示在网页上，通过“网页模板”展示出来，软件则是通过对应的“采集规则”来解密出网页的内容，小猪规则相当于是“钥匙”，不同的钥匙打开不同的“网页模板”。

4.小猪采集规则的独立性与调用

小猪软件采集规则，是互相独立，又互相配合的，并且规则和任务也是独立的。

小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等，所以制作好规则后，就可以测试采集了，任务会自动调用，无需手工再次选择。

5.采集页面深度

小猪理论上支持采集支持无限深度，原理是通过不同的规则识别不同的网页模板，也就是抓取不同的页面深度。

对于更复杂的需求，还可以通过p语言来实现，比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。

第四节实战编写小猪规则

有些用户可能比较心急，这一节讲解如何操作，不过我们建议大家有空的话还是看全五节教程的文字部分，这样能基本掌握小猪规则的制作方法。

小猪规则编写速查表.rar（0Bytes,下载次数:

862）

2011-12-1913:

03:

56上传

下载次数:

862

，新手可以参考此表来编写小猪规则。

建议按顺序看以下视频教程：

序号

视频教程说明

视频下载地址

本地下载

教程规则下载

1

编辑规则相关界面介绍

点击进入下载

本地下载

2

正文采集规则制作方法

点击进入下载

本地下载

新闻__正文_11111.rar（428Bytes,下载次数:

641）

2011-12-1914:

44:

17上传

下载次数:

641

3

列表采集规则制作方法

点击进入下载

本地下载

新闻__列表.rar（481Bytes,下载次数:

607）

2011-12-1914:

44:

30上传

下载次数:

607

4

论坛帖子采集规则制作

点击进入下载

本地下载

5

视频采集规则制作（包含采集视频评论）

点击进入下载

本地下载

以下为文字说明和相关注意点：

正文规则制作教程

正文规则是为了采集到标题、内容（包括图片、附件网址），以及获取正确的翻页网址，便于实时发布。

一、在文章页面，CTRL+B测试获取内容不正确，就需要做正文规则

二、右键点“本地规则库”--制作当前网页采集规则

编辑正文规则方法如下：

操作顺序

配置名

操作方法和注意点

1

全局区

设置规则名称和规则类型，一般是选择源代码，正文页类型

2

标题

鼠标框选网页上标题区域，右键菜单--内容采集--此处取标题，其他配置名均可以如此操作

3

正文

注意：

只有在要采集回复、评论，才需要设置“首帖区域”“单元区域”

4

正文下一页网址

如果有翻页，设置翻页地址，便于软件自动采集文章分页

注意：

如果是论坛帖子的翻页，需要设置为“下一页网址”

5

识别区

回过头来，用正文的class属性，设置识别区—内容必包含

保存规则，打开其他正文页面测试是否获取正常，是否调用到了此正文采集规则。

小结：

制作文章类型的正文规则，主要设置“配置名”中的识别区、标题、正文、正文下一页。

注意点：

识别区务必要设置，识别区的重要性在第二节中有相关说明。

列表规则的制作教程

列表规则起到导航的作用，便于软件抓取到正文网址，采集正文内容。

一、打开版块列表页，CTRL+B测试获取内容不正确，就需要做列表规则

此教程中，内置规则能正常识别到列表，只是演示制作方法

二、右键点“本地规则库”--制作当前网页采集规则

编辑列表规则方法如下：

操作顺序

配置名

操作方法和注意点

1

全局区

设置规则名称和类型，一般是选择源代码，列表页类型

2

单元区域

单元区域：

重复的HTML块，比如列表上的标题一般都有规律可循

鼠标框选网页上第一个文章链接区域，右键送入“单元区域”

小技巧：

列表规则单元区域可以直接输入“正文网址”的特征，软件会自动抓取这些链接

检查标题、正文显示内容是否正确，如果不对需要修改

3

有效区域

可以通过“有效区域”来限定获取内容的范围，比如排除置顶帖

4

下一页网址

找到翻页地址并设置，便于软件自动翻页采集

5

识别区

回过头来，用单元区域的class属性，设置识别区—内容必包含

如果一时找不到，可以将正文规则的class属性，设置到识别区--内容不包含里面

这样就简单实现2个规则互不干扰

注意：

要在列表页源代码中搜索一下class属性，检查并确定没有此字段，才可用此方法

保存规则，打开其他列表页面测试是否获取正常，是否调用到了此列表采集规则。

小结：

制作列表采集规则，主要设置了“配置名”中的单元区域、下一页网址、识别区。

注意点：

寻找单元区域有一定的技巧，需要耐心，同样，识别区非常重要，务必设置好识别区

第二节小猪浏览器采集规则执行原理

小猪浏览器常用的采集规则主要有三类：

列表规则、正文规则（根据是否采集回复、评论，还可以分2种）、下载规则。

首先理解要做哪些规则：

序号

网页类型

制作规则类型及注意点

1

版块列表页面

列表规则，“单元区域”设置列表网址的特征值，或者正文网址所在重复区块的特征值

2

文章类页面（不采集回复）

正文规则，不需要用到"单元区域"

3

帖子类页面（需回复、评论）

正文规则，需要用到"单元区域"

对于有些网页评论和回复不在重复区块内，还需要用到首帖区域

4

跳转的附件下载页面

下载规则

自编采集规则可以和软件内置采集规则配合使用，比如软件内置规则能识别出列表页面，但是无法识别正文页面，那么我们只需要制作正文采集规则就可以了。

为了让这些规则互相不冲突，需要用到“识别区”，识别区的意义，是让规则只识别某一类网址、某一种模板，让规则分工协调。

和普通采集器不一样的是，小猪规则是智能调用的，规则打钩即生效，软件通过识别区来自动匹配网页所对应的规则。

识别区有4个特征选项

序号

识别区

说明（特征字符是固定的字符，请按行填写，不支持通配符号）

1

网址必包含

只有网址包含了这些特征字符，才调用此规则

技巧：

新建规则时，软件会自动填入完整域名，有时候可以去掉二级前缀来扩大规则识别范围

2

网址不包含

当网址包含这些特征字符的时候，则不调用此规则

3

内容必包含

当网页代码中带有网页模板特征字符、文字，调用此规则

网页代码：

制作规则所针对的网页代码来源，如网页源代码

技巧：

我们常用标题、正文、或者区域的class="***"等HTML属性，这些一般是网页模板的特征字符

4

内容不包含

当网页代码中包含了这些特征字符，则不调用此规则

根据排列组合原理，小猪识别区理论上可以识别无限个网页（模板），利用好识别区，可以让规则匹配不同的网页生效。

相关html代码属性，可以参考下面的第五节学习。

采集规则编辑流程图如下，红线示意了规则循环执行原理

扩展一下：

一级列表规则也可以指向二级列表规则……，直至抓到最终的正文页面；

类似于蜘蛛爬行原理，而我们需要更精确和可控的内容，所以需要制作对应的小猪采集规则。

（蜘蛛爬行是顺着网页链接来抓取对应的内容，有一定“随机性”）

2011-12-1118:

48:

32上传

下载附件（75.81KB）

小猪浏览器采集规则流程图

欢迎有志于小猪发展的朋友加入我们，一起努力让更多的人领养小猪！

点评回复

使用道具评分举报

∙

显身卡

∙

hofi

hofi当前在线

在线时间

5027小时

最后登录

2013-3-21

154

活力

14464

论坛币

2275

注册时间

2010-7-7

阅读权限

200

帖子

3871

主题

550

精华

6

积分

40199

UID

7164

IP卡

狗仔卡

管理员

TA的每日心情

奋斗

2013-3-313:

02:

57

签到天数:

206天

[LV.7]常住居民III

最后登录

2013-3-21

154

注册时间

2010-7-7

积分

40199

主题

550

帖子

3871

∙串个门

∙加好友

∙打招呼

∙发消息

4#

发表于2011-12-1122:

22:

58|只看该作者

小猪浏览器论坛搜索、提问/求助的技巧

小猪浏览器新手快速入门视频教程！

小猪系列软件教程速查表

第三节　规则编辑操作简述

一、规则编辑，相关界面介绍：

序号

功能区名称

位置

作用及相关功能介绍

1

规则管理区

工具栏--规则标签

管理规则的地方，可以执行新建、删除规则等操作（打钩的规则才生效）

Misc：

自动整理的规则会放到此文件夹

Poster：

发布子规则文件夹，可以新建和管理发布子规则

Recycle：

此文件夹内的规则不参与规则冲突检查，可以用此文件夹屏蔽规则

2

规则编辑器

编辑规则窗口

编辑、调试具体的规则

左边：

规则总览区，一览检查规则完成度

中间：

配置代码编辑区，快速编辑配置名

输出：

实时显示配置名的测试结果

右边：

p语言函数说明

3

代码及抓包工具

（快捷键F8）

html代码窗口

查看网页HTML代码，内置抓包工具，便于调试和测试

代码树：

根据源代码和浏览器代码生成的树状目录结构

源代码：

网页服务器端代码，一般针对源代码做规则

浏览器代码：

经过浏览器解释过的客户端网页代码（效率偏低）

浏览包：

用户访问网页产生的数据包

软件包：

软件自动执行相关的数据包

小猪规则编辑器新特性：

所见即所得，编辑的代码可以在浏览网页中同步高亮显示，便于检查结果。

二、编辑规则基本操作方法：

1.浏览器中，打开需要制作规则的网页

2.右键点击“本地规则库”，新建采集规则

3.在浏览器中，鼠标框选内容，通过右键菜单送入相应的“配置名”中（单元区域选第一个重复区域，识别成功率会较高）

4.检查“配置名”获取到的内容是否正确

分析方法：

1.分析代码树，鼠标框选内容，定位到代码树，比如：

通过代码树快速分析出重复的“单元区域”；

2.在网页上，选择一定的区域，右键菜单—查看网页代码，可以快速查看源代码片段，比如分析下一页代码，

或者在源代码中搜索，分析相关的源代码。

检查结果的方法：

1.点击"配置名"，检查浏览器网页上对应高亮显示区域;

2.规则编辑器下方“输出”窗口会显示测试内容;

3.规则保存后，预览结果（ctrl+b）是最终验证规则是否有效的手段。

欢迎有志于小猪发展的朋友加入我们，一起努力让更多的人领养小猪！

点评回复

使用道具评分举报

∙

显身卡

∙

hofi

hofi当前在线

在线时间

5027小时

最后登录

2013-3-21

154

活力

14464

论坛币

2275

注册时间

2010-7-7

阅读权限

200

帖子

3871

主题

550

精华

6

积分

40199

UID

7164

IP卡

狗仔卡

管理员

TA的每日心情

奋斗

2013-3-313:

02:

57

签到天数:

206天

[LV.7]常住居民III

最后登录

2013-3-21

154

注册时间

2010-7-7

积分

40199

主题

550

帖子

3871

∙串个门

∙加好友

∙打招呼

∙发消息

5#

发表于2011-12-1122:

27:

30|只看该作者

小猪浏览器论坛搜索、提问/求助的技巧

小猪浏览器新手快速入门视频教程！

小猪系列软件教程速查表

第五节小猪规则编辑器中，获取及处理内容－－“配置名”的编辑方法

这边说的“配置名”，主要侧重预置的“配置名”如“标题”“正文”等，“自定义标签”对应的配置名请看第六节。

小猪规则编辑器的采集“配置名”，一般有1-4种普通处理方法（普通情况下用不到p语言），并且大部分时候只需通过在网页上取值就可以，这边主要讲解如何手工编辑：

注意：

类似id="idwebpig***" 这样的代码，是规则管理器生成代码树用的，并非源代码，做规则的时候一定不能带这样的代码，否则规则会失效。

2011-12-1923:

12:

27上传

下载附件（78.31KB）

如图红色箭头标出了“总览区”和“配置名编辑”的对应关系，蓝色框子是配置名的处理方法，具体讲解如下：

一、获取内容：

获取内容是小猪规则里最常用的方法，大部分时候，通过“获取内容”就可以制作出需要的规则代码了。

了解一些html代码知识会有帮助（见下面补充说明）。

1.

这是标题1

2.

段落1

3.

4.

这是标题2

5.

段落2

6.

复制代码

如上面源代码，html代码是闭合的，

开始，

闭合，两个代码成对出现，我们一般称之为一个HTML块。

在小猪编辑器里面，输入

1.

复制代码

，就能提取到标题了，不需要写结尾，规则编辑器会自动匹配结尾。

精准定位的方法：

上例中，有2个段落，需要获得段落2，可以这样写，这样是用class="news"属性来进行一次定位，指定获取第二个

1.class="news"

2.

复制代码

对于不连续的区块，可以通过指定代码的开头和结尾来获取内容。

也可以在规则编辑器中获取不同的区块来组合、排序。

二、Html块删除：

是获取内容的逆反概念，相当于“减法”，针对有时候获取到的内容，中间夹杂了一小段不需要的（比如广告图片、引用语句等），这时候用HTML块删除就比较方便了。

三、标签过滤：

过滤掉html格式代码，以及ubb-html的格式化代码转换。

四、正则过滤：

有固定词替换、前后缀、正则过滤见正则教程。

*P语言：

p语言为特殊处理方法，针对规则编辑器无法正常获取到的内容，有可能需要p语言来处理。

p语言处理后，可以统一用$m_return变量返回结果给规则编辑器调用。

处理过程简述（一般来说获取内容就足够用了，按需使用处理方法，以便处理复杂的网页）：

1.第一阶段HTML代码处理：

HTML==获取内容-->p语言-->块删除-->p语言-->标签过滤==UBB

2.第二阶段UBB代码处理：

UBB==正则过滤-->p语言==结果（ubb）

3.第三阶段UBB代码处理：

结果（ubb）==后处理（p语言）==最终结果（ubb）

复制代码

小猪规则解释器采集过程是将网页内容先进行标准化处理，转换成UBB代码后，再按发布网站源程序，自动选择对应的编码发布。

补充：

为了缩小获取内容（不包括标题和下一页）的范围，小猪编辑器引入了有效区域概念，限定采集内容的范围（不包括标题、版块地图、翻页），注意：

有效区域设置不当会获取不到内容。

有效区域的技巧：

只想采集从“版块主题”之后正文网址，可以用第3行

序号

有效区域开始

有效区域结束

有效区域含义

1

只写代码开头

空

表示循环获取此html块为有效区域，针对列表规则获取链接非常有效

2

版块主题

从网页开头到“版块主题”结束的代码区域，是普通网页的开始代码

3

版块主题

从“版块主题”开始直到代码结束的代码区域，是普通网页的结束代码

下面表格列出了一些常用的html代码，了解这些代码定义，能极大的提高规则制作效率，主要看序号1-5代码，其中标准属性（常用部分），是我们经常用到的定位特征代码，如class="***"（因为这个属性通常来说是唯一的，并且常可以作为识别区--内容识别代码）。

序号

名称/定义

HTML代码

标准属性（常用部分）

链接

代码结束

1

标题

id,class,title

2

文档中的分区或节

id,class,title

3

组合文档中的行内元素

id,class,title

4

锚,链接

id,class,title

href="链接"

5

向网页中嵌入一幅图像

id,class,title

src="图片链接"

6

段落

id,class,title

7

块引用

id,class,title

8

列表项目

id,class,title

9

定义列表

id,class,title

10

列表中的项目（即术语部分）

id,class,title

11

无序列表

id,class,title

12

表格

id,class,title

13

表格内的表头单元格

id,class,title

14

表格中的标准单元格

id,class,title

15

表格中的行

id,class,title

16

规定文本的字体、字体尺寸、字体颜色

id,class,title

17

frameset中的一个特定的窗口（框架）

id,class,title

src="链接"

18

客户端脚本，比如JavaScript

第六节小猪规则编辑器中，获取及处理内容－－“自定义标签”的编辑方法

上面第五节讲的“配置名”侧重于小猪软件采集规则预置的“标签名”，这一节主要讲解“自定义标签”。

简单来说，发布的时候就是在发布网页上填写字符表单，而这些字符实际上是对应，预置的“标题”、“正文”等这些“标签名”是常用的，所以小猪采集规则编辑器预置常用的，便于快速编辑采集规则。

有时候发布网页还有其他的“表单”需要填写，比如分类信息网站常用的“联系人”“联系电话”等信息，这时候就需要用到“自定义标签”。

分析发布网页，（表单）配置名，请参考帖子：

登录、发布表单的原理和用法（自定义表单）--轻松自动发布收费、权限贴

2012-3-220:

51:

08上传

下载附件（97.01KB）

小猪规则编辑器，可以很方便的添加、修改、或删除“自定义标签”，并且是不限数量的。

2012-3-220:

57:

27上传

下载附件（77.42KB）

“自定义标签”是属于表单，所以只支持“字符”，而不支持附件、图片的下载上传。

补充：

“正文”中支持图片和附件自动本地化；

如果需要图片本地化，如商品图片，可以通过预置的“头像”“缩略图”标签；

如果需要附件、图片本地化，而又要填写到对应的“自定义标签”，那么则需要在采集规则或者发布子规则中进行P语言处理，对表单进行赋值，具体请参考小猪p语言教程。

自定义标签的“配置名”和“标签名”，可以直接被p语言调用（小猪软件自动处理成局部变量），这样，可以在“后处理”里面使用p语言，对“正文”进行字段重组。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 小猪采集规则制作 DOC

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：小猪采集器规则制作DOC.docx
链接地址：https://www.bdocx.com/doc/27129544.html

小猪采集器规则制作DOC.docx

这是标题1

这是标题2

开始，

热门标签