小猪采集器规则制作DOC.docx
- 文档编号:27129544
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:29
- 大小:184.03KB
小猪采集器规则制作DOC.docx
《小猪采集器规则制作DOC.docx》由会员分享,可在线阅读,更多相关《小猪采集器规则制作DOC.docx(29页珍藏版)》请在冰豆网上搜索。
小猪采集器规则制作DOC
1.何时才需要做小猪采集规则
小猪内置了数百种采集规则(内置规则无法修改),方便了用户使用,不过网页(模板)是千变万化的,当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候,就需要制作采集规则了。
注意点:
小猪采集规则主要功能是提取字符、网址;
采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制,并且这些是运行均是自动化的。
2.小猪采集规则的作用
采集规则,顾名思义,就是采集用的,将网页上的内容提取整理成适合的形式,以便于发布到网站或者存储到CSV数据表格里面。
补充:
小猪采集规则实际包含了采集规则+发布规则,这么设计的好处,可以处理交互式的网页,实现自动登录、回复、购买等互动采集,普通采集器很难实现这些互动处理,比如在论坛的帖子页,可以采集这个帖子,也可以对这个帖子进行回复后再采集,当然,大部分情况下是不需要做发布规则的,请按需选择。
3.小猪采集规则的兼容性
小猪的采集规则处理的对象是“网页模板”,普通的网站一般只用一套模板,这种网页就有规律可循,比如相同模板的列表页只需要制作一条列表采集规则。
小结:
网站的发布内容展示在网页上,通过“网页模板”展示出来,软件则是通过对应的“采集规则”来解密出网页的内容,小猪规则相当于是“钥匙”,不同的钥匙打开不同的“网页模板”。
4.小猪采集规则的独立性与调用
小猪软件采集规则,是互相独立,又互相配合的,并且规则和任务也是独立的。
小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等,所以制作好规则后,就可以测试采集了,任务会自动调用,无需手工再次选择。
5.采集页面深度
小猪理论上支持采集支持无限深度,原理是通过不同的规则识别不同的网页模板,也就是抓取不同的页面深度。
对于更复杂的需求,还可以通过p语言来实现,比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。
第四节实战编写小猪规则
有些用户可能比较心急,这一节讲解如何操作,不过我们建议大家有空的话还是看全五节教程的文字部分,这样能基本掌握小猪规则的制作方法。
小猪规则编写速查表.rar(0Bytes,下载次数:
862)
2011-12-1913:
03:
56上传
下载次数:
862
,新手可以参考此表来编写小猪规则。
建议按顺序看以下视频教程:
序号
视频教程说明
视频下载地址
本地下载
教程规则下载
1
编辑规则相关界面介绍
点击进入下载
本地下载
2
正文采集规则制作方法
点击进入下载
本地下载
新闻__正文_11111.rar(428Bytes,下载次数:
641)
2011-12-1914:
44:
17上传
下载次数:
641
3
列表采集规则制作方法
点击进入下载
本地下载
新闻__列表.rar(481Bytes,下载次数:
607)
2011-12-1914:
44:
30上传
下载次数:
607
4
论坛帖子采集规则制作
点击进入下载
本地下载
5
视频采集规则制作(包含采集视频评论)
点击进入下载
本地下载
以下为文字说明和相关注意点:
正文规则制作教程
正文规则是为了采集到标题、内容(包括图片、附件网址),以及获取正确的翻页网址,便于实时发布。
一、在文章页面,CTRL+B测试获取内容不正确,就需要做正文规则
二、右键点“本地规则库”--制作当前网页采集规则
编辑正文规则方法如下:
操作顺序
配置名
操作方法和注意点
1
全局区
设置规则名称和规则类型,一般是选择源代码,正文页类型
2
标题
鼠标框选网页上标题区域,右键菜单--内容采集--此处取标题,其他配置名均可以如此操作
3
正文
注意:
只有在要采集回复、评论,才需要设置“首帖区域”“单元区域”
4
正文下一页网址
如果有翻页,设置翻页地址,便于软件自动采集文章分页
注意:
如果是论坛帖子的翻页,需要设置为“下一页网址”
5
识别区
回过头来,用正文的class属性,设置识别区—内容必包含
保存规则,打开其他正文页面测试是否获取正常,是否调用到了此正文采集规则。
小结:
制作文章类型的正文规则,主要设置“配置名”中的识别区、标题、正文、正文下一页。
注意点:
识别区务必要设置,识别区的重要性在第二节中有相关说明。
列表规则的制作教程
列表规则起到导航的作用,便于软件抓取到正文网址,采集正文内容。
一、打开版块列表页,CTRL+B测试获取内容不正确,就需要做列表规则
此教程中,内置规则能正常识别到列表,只是演示制作方法
二、右键点“本地规则库”--制作当前网页采集规则
编辑列表规则方法如下:
操作顺序
配置名
操作方法和注意点
1
全局区
设置规则名称和类型,一般是选择源代码,列表页类型
2
单元区域
单元区域:
重复的HTML块,比如列表上的标题一般都有规律可循
鼠标框选网页上第一个文章链接区域,右键送入“单元区域”
小技巧:
列表规则单元区域可以直接输入“正文网址”的特征,软件会自动抓取这些链接
检查标题、正文显示内容是否正确,如果不对需要修改
3
有效区域
可以通过“有效区域”来限定获取内容的范围,比如排除置顶帖
4
下一页网址
找到翻页地址并设置,便于软件自动翻页采集
5
识别区
回过头来,用单元区域的class属性,设置识别区—内容必包含
如果一时找不到,可以将正文规则的class属性,设置到识别区--内容不包含里面
这样就简单实现2个规则互不干扰
注意:
要在列表页源代码中搜索一下class属性,检查并确定没有此字段,才可用此方法
保存规则,打开其他列表页面测试是否获取正常,是否调用到了此列表采集规则。
小结:
制作列表采集规则,主要设置了“配置名”中的单元区域、下一页网址、识别区。
注意点:
寻找单元区域有一定的技巧,需要耐心,同样,识别区非常重要,务必设置好识别区
第二节小猪浏览器采集规则执行原理
小猪浏览器常用的采集规则主要有三类:
列表规则、正文规则(根据是否采集回复、评论,还可以分2种)、下载规则。
首先理解要做哪些规则:
序号
网页类型
制作规则类型及注意点
1
版块列表页面
列表规则,“单元区域”设置列表网址的特征值,或者正文网址所在重复区块的特征值
2
文章类页面(不采集回复)
正文规则,不需要用到"单元区域"
3
帖子类页面(需回复、评论)
正文规则,需要用到"单元区域"
对于有些网页评论和回复不在重复区块内,还需要用到首帖区域
4
跳转的附件下载页面
下载规则
自编采集规则可以和软件内置采集规则配合使用,比如软件内置规则能识别出列表页面,但是无法识别正文页面,那么我们只需要制作正文采集规则就可以了。
为了让这些规则互相不冲突,需要用到“识别区”,识别区的意义,是让规则只识别某一类网址、某一种模板,让规则分工协调。
和普通采集器不一样的是,小猪规则是智能调用的,规则打钩即生效,软件通过识别区来自动匹配网页所对应的规则。
识别区有4个特征选项
序号
识别区
说明(特征字符是固定的字符,请按行填写,不支持通配符号)
1
网址必包含
只有网址包含了这些特征字符,才调用此规则
技巧:
新建规则时,软件会自动填入完整域名,有时候可以去掉二级前缀来扩大规则识别范围
2
网址不包含
当网址包含这些特征字符的时候,则不调用此规则
3
内容必包含
当网页代码中带有网页模板特征字符、文字,调用此规则
网页代码:
制作规则所针对的网页代码来源,如网页源代码
技巧:
我们常用标题、正文、或者区域的class="***"等HTML属性,这些一般是网页模板的特征字符
4
内容不包含
当网页代码中包含了这些特征字符,则不调用此规则
根据排列组合原理,小猪识别区理论上可以识别无限个网页(模板),利用好识别区,可以让规则匹配不同的网页生效。
相关html代码属性,可以参考下面的第五节学习。
采集规则编辑流程图如下,红线示意了规则循环执行原理
扩展一下:
一级列表规则也可以指向二级列表规则……,直至抓到最终的正文页面;
类似于蜘蛛爬行原理,而我们需要更精确和可控的内容,所以需要制作对应的小猪采集规则。
(蜘蛛爬行是顺着网页链接来抓取对应的内容,有一定“随机性”)
2011-12-1118:
48:
32上传
下载附件(75.81KB)
小猪浏览器采集规则流程图
欢迎有志于小猪发展的朋友加入我们,一起努力让更多的人领养小猪!
点评回复
使用道具评分举报
∙
显身卡
∙
∙
hofi
hofi当前在线
在线时间
5027小时
最后登录
2013-3-21
154
活力
14464
论坛币
2275
注册时间
2010-7-7
阅读权限
200
帖子
3871
主题
550
精华
6
积分
40199
UID
7164
IP卡
狗仔卡
管理员
TA的每日心情
奋斗
2013-3-313:
02:
57
签到天数:
206天
[LV.7]常住居民III
最后登录
2013-3-21
154
注册时间
2010-7-7
积分
40199
主题
550
帖子
3871
∙串个门
∙加好友
∙打招呼
∙发消息
4#
发表于2011-12-1122:
22:
58|只看该作者
小猪浏览器论坛搜索、提问/求助的技巧
小猪浏览器新手快速入门视频教程!
小猪系列软件教程速查表
第三节 规则编辑操作简述
一、规则编辑,相关界面介绍:
序号
功能区名称
位置
作用及相关功能介绍
1
规则管理区
工具栏--规则标签
管理规则的地方,可以执行新建、删除规则等操作(打钩的规则才生效)
Misc:
自动整理的规则会放到此文件夹
Poster:
发布子规则文件夹,可以新建和管理发布子规则
Recycle:
此文件夹内的规则不参与规则冲突检查,可以用此文件夹屏蔽规则
2
规则编辑器
编辑规则窗口
编辑、调试具体的规则
左边:
规则总览区,一览检查规则完成度
中间:
配置代码编辑区,快速编辑配置名
输出:
实时显示配置名的测试结果
右边:
p语言函数说明
3
代码及抓包工具
(快捷键F8)
html代码窗口
查看网页HTML代码,内置抓包工具,便于调试和测试
代码树:
根据源代码和浏览器代码生成的树状目录结构
源代码:
网页服务器端代码,一般针对源代码做规则
浏览器代码:
经过浏览器解释过的客户端网页代码(效率偏低)
浏览包:
用户访问网页产生的数据包
软件包:
软件自动执行相关的数据包
小猪规则编辑器新特性:
所见即所得,编辑的代码可以在浏览网页中同步高亮显示,便于检查结果。
二、编辑规则基本操作方法:
1.浏览器中,打开需要制作规则的网页
2.右键点击“本地规则库”,新建采集规则
3.在浏览器中,鼠标框选内容,通过右键菜单送入相应的“配置名”中(单元区域选第一个重复区域,识别成功率会较高)
4.检查“配置名”获取到的内容是否正确
分析方法:
1.分析代码树,鼠标框选内容,定位到代码树,比如:
通过代码树快速分析出重复的“单元区域”;
2.在网页上,选择一定的区域,右键菜单—查看网页代码,可以快速查看源代码片段,比如分析下一页代码,
或者在源代码中搜索,分析相关的源代码。
检查结果的方法:
1.点击"配置名",检查浏览器网页上对应高亮显示区域;
2.规则编辑器下方“输出”窗口会显示测试内容;
3.规则保存后,预览结果(ctrl+b)是最终验证规则是否有效的手段。
欢迎有志于小猪发展的朋友加入我们,一起努力让更多的人领养小猪!
点评回复
使用道具评分举报
∙
显身卡
∙
∙
hofi
hofi当前在线
在线时间
5027小时
最后登录
2013-3-21
154
活力
14464
论坛币
2275
注册时间
2010-7-7
阅读权限
200
帖子
3871
主题
550
精华
6
积分
40199
UID
7164
IP卡
狗仔卡
管理员
TA的每日心情
奋斗
2013-3-313:
02:
57
签到天数:
206天
[LV.7]常住居民III
最后登录
2013-3-21
154
注册时间
2010-7-7
积分
40199
主题
550
帖子
3871
∙串个门
∙加好友
∙打招呼
∙发消息
5#
发表于2011-12-1122:
27:
30|只看该作者
小猪浏览器论坛搜索、提问/求助的技巧
小猪浏览器新手快速入门视频教程!
小猪系列软件教程速查表
第五节小猪规则编辑器中,获取及处理内容--“配置名”的编辑方法
这边说的“配置名”,主要侧重预置的“配置名”如“标题”“正文”等,“自定义标签”对应的配置名请看第六节。
小猪规则编辑器的采集“配置名”,一般有1-4种普通处理方法(普通情况下用不到p语言),并且大部分时候只需通过在网页上取值就可以,这边主要讲解如何手工编辑:
注意:
类似id="idwebpig***" 这样的代码,是规则管理器生成代码树用的,并非源代码,做规则的时候一定不能带这样的代码,否则规则会失效。
2011-12-1923:
12:
27上传
下载附件(78.31KB)
如图红色箭头标出了“总览区”和“配置名编辑”的对应关系,蓝色框子是配置名的处理方法,具体讲解如下:
一、获取内容:
获取内容是小猪规则里最常用的方法,大部分时候,通过“获取内容”就可以制作出需要的规则代码了。
了解一些html代码知识会有帮助(见下面补充说明)。
1.
这是标题1
2.
段落1
3.
4.
这是标题2
5.
段落2
6.
复制代码
如上面源代码,html代码是闭合的,
开始,
闭合,两个代码成对出现,我们一般称之为一个HTML块。在小猪编辑器里面,输入
1.
复制代码
,就能提取到标题了,不需要写结尾,规则编辑器会自动匹配结尾。
精准定位的方法:
上例中,有2个段落,需要获得段落2,可以这样写,这样是用class="news"属性来进行一次定位,指定获取第二个
1.class="news"
2.
复制代码
对于不连续的区块,可以通过指定代码的开头和结尾来获取内容。
也可以在规则编辑器中获取不同的区块来组合、排序。
二、Html块删除:
是获取内容的逆反概念,相当于“减法”,针对有时候获取到的内容,中间夹杂了一小段不需要的(比如广告图片、引用语句等),这时候用HTML块删除就比较方便了。
三、标签过滤:
过滤掉html格式代码,以及ubb-html的格式化代码转换。
四、正则过滤:
有固定词替换、前后缀、正则过滤见正则教程。
*P语言:
p语言为特殊处理方法,针对规则编辑器无法正常获取到的内容,有可能需要p语言来处理。
p语言处理后,可以统一用$m_return变量返回结果给规则编辑器调用。
处理过程简述(一般来说获取内容就足够用了,按需使用处理方法,以便处理复杂的网页):
1.第一阶段HTML代码处理:
HTML==获取内容-->p语言-->块删除-->p语言-->标签过滤==UBB
2.第二阶段UBB代码处理:
UBB==正则过滤-->p语言==结果(ubb)
3.第三阶段UBB代码处理:
结果(ubb)==后处理(p语言)==最终结果(ubb)
复制代码
小猪规则解释器采集过程是将网页内容先进行标准化处理,转换成UBB代码后,再按发布网站源程序,自动选择对应的编码发布。
补充:
为了缩小获取内容(不包括标题和下一页)的范围,小猪编辑器引入了有效区域概念,限定采集内容的范围(不包括标题、版块地图、翻页),注意:
有效区域设置不当会获取不到内容。
有效区域的技巧:
只想采集从“版块主题”之后正文网址,可以用第3行
序号
有效区域开始
有效区域结束
有效区域含义
1
只写代码开头
空
表示循环获取此html块为有效区域,针对列表规则获取链接非常有效
2
版块主题
从网页开头到“版块主题”结束的代码区域,
是普通网页的开始代码3
版块主题
从“版块主题”开始直到代码结束的代码区域,是普通网页的结束代码
下面表格列出了一些常用的html代码,了解这些代码定义,能极大的提高规则制作效率,主要看序号1-5代码,其中标准属性(常用部分),是我们经常用到的定位特征代码,如class="***"(因为这个属性通常来说是唯一的,并且常可以作为识别区--内容识别代码)。
序号
名称/定义
HTML代码
标准属性(常用部分)
链接
代码结束
1
标题
id,class,title 2 文档中的分区或节 id,class,title
3
组合文档中的行内元素
id,class,title
4
锚,链接
5
向网页中嵌入一幅图像
id,class,title
src="图片链接"
6
段落
id,class,title
7
块引用
id,class,title
8
列表项目
id,class,title
9
定义列表
id,class,title
10
列表中的项目(即术语部分)
id,class,title
11
无序列表
id,class,title
12
表格
13
表格内的表头单元格
id,class,title
14
表格中的标准单元格
id,class,title
15
表格中的行
id,class,title
16
规定文本的字体、字体尺寸、字体颜色
id,class,title
17
frameset中的一个特定的窗口(框架)
id,class,title
src="链接"
18
客户端脚本,比如JavaScript
第六节小猪规则编辑器中,获取及处理内容--“自定义标签”的编辑方法
上面第五节讲的“配置名”侧重于小猪软件采集规则预置的“标签名”,这一节主要讲解“自定义标签”。
简单来说,发布的时候就是在发布网页上填写字符表单,而这些字符实际上是对应,预置的“标题”、“正文”等这些“标签名”是常用的,所以小猪采集规则编辑器预置常用的,便于快速编辑采集规则。
有时候发布网页还有其他的“表单”需要填写,比如分类信息网站常用的“联系人”“联系电话”等信息,这时候就需要用到“自定义标签”。
分析发布网页,(表单)配置名,请参考帖子:
登录、发布表单的原理和用法(自定义表单)--轻松自动发布收费、权限贴
2012-3-220:
51:
08上传
下载附件(97.01KB)
小猪规则编辑器,可以很方便的添加、修改、或删除“自定义标签”,并且是不限数量的。
2012-3-220:
57:
27上传
下载附件(77.42KB)
“自定义标签”是属于表单,所以只支持“字符”,而不支持附件、图片的下载上传。
补充:
“正文”中支持图片和附件自动本地化;
如果需要图片本地化,如商品图片,可以通过预置的“头像”“缩略图”标签;
如果需要附件、图片本地化,而又要填写到对应的“自定义标签”,那么则需要在采集规则或者发布子规则中进行P语言处理,对表单进行赋值,具体请参考小猪p语言教程。
自定义标签的“配置名”和“标签名”,可以直接被p语言调用(小猪软件自动处理成局部变量),这样,可以在“后处理”里面使用p语言,对“正文”进行字段重组。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小猪 采集 规则 制作 DOC