采集器VIP10手册Word格式文档下载.docx
- 文档编号:20093632
- 上传时间:2023-01-16
- 格式:DOCX
- 页数:25
- 大小:1.74MB
采集器VIP10手册Word格式文档下载.docx
《采集器VIP10手册Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《采集器VIP10手册Word格式文档下载.docx(25页珍藏版)》请在冰豆网上搜索。
]=rand(10,50);
//主题的浏览数设置
urlallowmon_num'
]=50;
//为0,为不限制,检测历史文章url个数,按域名分类,并根据采集时间的降序检测,大大节约资源的占用。
subjectallowrepeat_num'
]=100;
//为0,为不限制,检测历史标题个数,按域名分类,并根据采集时间的降序检测,防止访问数据库超时。
repeatolog_keepday'
]=3;
//为0,为不限制,标题及URL记录保存天数。
用于计划任务,其实过多的记录作用也不大。
首次安装的请把config_robot.php配置好.已经安装过的,覆盖后在后台插件升级.
采集器管理界面
下面一一介绍。
标题栏:
默认就是浏览机器人
添加机器人:
跟刚才的一样。
导入机器人:
先看看导出来的规则文件:
就是横线下面这一大串字母了,把它复制到配置文件内容框里。
允许导入不同版本,如果选否,会检测插件的版本。
一般可以选“是”,导入完之后,其采集器的采集时间设为当前时间,这样就会默认显示到列表的第一位,方便进一步编辑。
目前兼容SS7.5版的采集规则,可以到官方网搜索,或者进入的采集器专版查找或提问。
现在返回浏览机器人界面。
进一步介绍:
采集器左边的选择框只针对最下面的批量操作有效。
点击采集名会进入采集器未导入文章的界面。
[导]自动导入
[图]图片下载到本地
[重]允许重复标题
[监]监测重复URL
右边的选择操作为单独操作一个采集器。
开始采集:
点击就开始采集
编辑配置:
编辑采集器规则
复制配置:
把当前的规则复制到新建机器人配置里,非常的方便好用哦。
导出配置:
请右击,选目标另存为。
方便备份和分享你的机器人。
查看结果:
查看当前机器人未自动导入的文章。
导出文章:
把文章列表导出到文本文件:
清空文章:
清空当前采集器未导入或已经导入但没有删除的临时文章。
删除机器:
删除后不可以恢复,会进一步提示确认。
批量操作:
在左边选好要操作的采集器,选上一个操作,点提交可以开始批量操作了。
很方便吧。
最下面是页码:
要是页数较多会出现一个跳转文本框,如下图
在框中填上你要去的页码,然后按回车就可以跳转过去了。
下面介绍采集器文章管理
下面一一介绍:
选择,未导入的文章还是导入的文章。
采集器列表,有相关文章的会在采集器名字后面标示出来。
点击名称会显示相关的文章。
有附件的会在标题前显示附件图标。
下面重点说说操作:
全选:
全部选择或全部不选。
导入:
导入到哪下面就会显示出导入界面。
这里要说明一点,要是想导入到门户并且保存图片,采集前应该在第一栏的分类选上门户,不然附件的位置会出错。
这里显示一下这个四级分类:
有群组的会在后面显示群组数,没有群组的为不可选。
这里设置是否包括这些临时文章。
不删除就会在已导入列表中显示。
如果你是选择某一采集器的文章,导入界面也是有所不同的。
如下图:
主要不同是多了一次性导入。
可以一次性把当前的采集器的未导入的文章全部导入到指定的地方。
已导入文章界面跟未导入文章相似
只是多了显示导进的地方。
采集计划任务
采用的是DZ的计划任务,这里已经把操作界面集成进来,所有机器人的任务都集中到一起显示,更方便操作。
这里要说明一些情况:
1、DZ的计划任务采用负载平衡技术,并不是每个时间点上的任务都会执行的。
为保证执行多设置几个时间点吧,不要与其它时间点重叠。
2、不用担心用户触发采集后关闭页面会导致采集中断,采集还会继续在服务器执行。
同义词库管理界面:
可以临时新增一组词,也可以用文本的方式批量导入。
同义词库4180组:
也可以自行编写同义词库文本。
单向默认用“→”
双向默认用“=”。
一行一组词。
如:
1.爱护=保护
2.安顿→安排
3.安全=平安
4.安适=安闲
5.安慰=抚慰
要求文本编码为ANSI,这也是记事本默认的编码。
其他编码会导致乱码。
一,添加机器人
一、基本设置
机器人名:
可根据采集内容定义
采集总个数:
就是采集一次的总个数
单次采集个数:
跳转一个页面所采集的个数,采集是个很耗资源的过程,为避免超时采用页面跳转。
若采用计划任务,此项最好跟总数设置成一样。
因为计划任务里是不会跳转页面的。
视网速而定,建议设置小一些,以免超时。
自动导入到:
选择分类,可以直接将采集的结果导入到站点。
想实现自动导入,必须选择具体的版块或栏目。
另外请注意,若采集到门户,但不打算自动导入,此项的第一个分类一定要选门户,否则附件将存放到论坛附件里,导致门户文章的附件地址出错。
图片是否加水印:
这里将取代站点的水印开关设置,但具体水印设置按后台的水印设置。
所以还是先要设置好站点后台的水印设置。
替换同义词:
这里是设置是否使用同义词库自动替换同义词,替换范围包括标题和内容。
对于纯图片的文章就没必要开启了。
支持单向和双向替换,举个例子。
供给->
供应(单向):
文章中如果有“供给”这词就替换为“供给”,但如果是“供应”这词则不会替换为“供给”。
整洁<
->
整齐(双向):
文章中有“整洁”就会替换“整齐”,有“整齐”就会替换成“整洁”。
具体同义词库管理看后面的章节。
预定义发布时间:
若这里设置了时间,则发布时间为设置时间,若留空,则时间为采集当前时间。
列表页面采集设置
1
二、锁定要采集的内容和页面
1、打开QQ主页
2、根据自己的需要来进行相关内容的确定,这里以新闻中心为例。
点击进入
内容非常的丰富,也分很多类别,确定自己要采集的类别。
现在我的要找的是一个文章列表,目光焦点通常放到“更多”2个字上面。
这里很明显不合用,继续查看,先找到要的猎物。
发现目标,这里选择国内新闻为例。
点击国内进入。
同样类别非常的多,当然可以采集中间这个列表,但为了教程更通用,下面选择比较常见的列表形式。
这里选择时政要闻。
点击进入。
非常好,很直观的列表。
这里就找到了要用的列表地址:
继续观察列表的URL地址规律。
。
规律很明显。
下面再测试一下首页是否也符合这个规律。
根据规律写出地址:
发现打不开,说明首页跟其它页面不一样,这样就填写2个地方了。
填写到手工输入,然后点添加首页地址。
自动增长URL填写规律地址,一般是降序,根据自己需要设置。
继续,
自动调整开始地址:
目前只支持升序的列表,以后会完善。
这个功能就是根据每次采集的总个数和列表链接数进行自动更新采集的开始地址。
例:
列表页面有10个链接,每次采集总数为6,将在第二次采集后,把自动增长开始地址加1。
一个列表页面包含链接数:
开启自动调整此参数才有效。
文章倒序采集:
设为此项后列表中的文章将从列表最后面链接的开始采集
采集页面编码:
请输入要采集页面的编码。
比如:
gbk、utf-8、big5。
为空则不进行编码转换。
用程序辅助识别一下,一般被采集页面为GB2321,你的为GBK,则可以不转换。
继续
列表区域识别规则:
首先查看列表的源文件。
用搜索方式快速定位,这里搜索第一篇文章的标题。
下面,需要你有一定的HTML基础和编写规则的经验,当然经验是积累回来了。
继续观察。
我们要的是这个列表:
就是说在列表跳转列表的下面的,我们观察刚才定位到的地方往上一点的地方。
<
divclass="
modtitbox"
>
h1>
时政新闻<
/h1>
/div>
pageNav"
spanclass="
na"
&
lt;
上一页<
/span>
strong>
1<
/strong>
ahref="
href="
class="
mor"
...<
f12"
modnewslist"
ul>
li>
·
atarget="
_blank"
名称用“中国”“优惠”2000万<
/a>
<
pub_time"
10月18日&
#160;
15:
41<
/li>
这里看到有个比较明显的开始标志:
,在源文件中搜索,看看这个第一次出现的位置是不是我们要的位置,如果不是,再改用其它。
很好这个只出现过一次。
下面定位结束,同样快速定位到列表结束的地方。
结束标志要注意的地方是你找到的标志字串的位置是不是刚才确定的开始标志的后面第一个出现的位置,如果不是则会出现列表不完整的问题。
这个要好好观察了。
很幸运,列表中没有出现过<
,所以我们就选择这个作为结束标志串。
结合起来就是
[list]<
下面测试一下。
效果非常的好,当然也要看看其它列表页面是否也符合这个规律。
我们继续
把测试的结果复制到一个文本中,方便下一步查看。
国税系统意外遇冷<
10月15日14:
57<
包容性增长成亮点<
55<
43<
/ul>
太多了这里摘选一部份。
下面继续
文章链接URL识别规则
这里的列表太标准了,这个可以留空让程序自动识别。
这里演示一下:
[url]"
非常的简单吧。
对于不标准的或带简介的,自己多测试几下就可以。
文章链接URL剔除规则
功能:
凡符合规则的链接不进行采集,区分大小写.用*来代替任意字符、换行、回车
多个规则之间用|隔开。
这里是直接填写关键词
文章链接URL过滤规则
过滤掉链接中的字符串,可以用来整理链接,区分大小写.用*来代替任意字符、换行、回车
文章链接URL补充前缀
自动识别("
文章链接URL补充前缀"
为空时,程序自动补充前缀),根据测试情况自行设置,一般都不需要设置。
文章链接URL补充后缀
根据测试情况自行设置,一般都不需要设置。
完成列表部分,下面进入内容部分。
内容页面标题采集设置
现在要进入到内容的页面,打开一篇文章的地址。
文章标题识别规则
好了,查看源文件。
快速定制标题位置。
很好,很标准。
再搜索文中还有没有其它地方出现<
,程序是以第一次出现的位置为标准。
很好,没有其它位置出现,这里就得到标题的表达式。
[subject]<
文章标题过滤规则
用*来代替任意字符、换行、回车
这里是直接填写关键词。
文章标题文字替换
直接填写互换的词语。
多于一条就点添加,只有一条就不需要点添加。
文章标题包含关键字
设置该选项后,则只采集标题包含关键字的文章
多个关键字之间用|隔开
文章标题关键字剔除过滤
设置该选项后,不会采集标题包含关键字的文章
允许文章标题重复
(如果启用自动入库再启用此项文章标题不允许重复将加重数据库的负载)(后续会进一步完善SS7.5的这个不足。
)
完成标题部分,继续文章内容部分。
内容页面内容采集设置
文章内容识别规则
同样观察源文件。
这里跟识别列表差不多,比较识别列表更简单些。
开始部分:
日媒称反日游行引发日企不安在华销售或受影响<
titBar"
info"
2010年10月18日15:
06<
infoCol"
where"
环球网<
fontSize"
字号:
small"
title="
切换到小字体"
id="
fontSmall"
T<
|<
big"
切换到大字体"
fontBig"
我们保留这个发布的时间,直接以<
为开始标志。
下面找结束的。
爱国热情转化为做好本职工作的实际行动,维护好改革、发展、稳定大局。
/P>
Pstyle="
TEXT-INDENT:
2em"
FONTface=Verdana>
更多精彩内容请登录环球网(<
Atarget=_blankhref="
ft"
只出现过一次就用它了。
规则就是
[message]<
,测试一下,很明显多了些我们不要的内容,下面就过滤掉。
文章内容过滤规则
这些内容是多余
#"
cmt_1"
我要评论<
num"
(<
emid="
comNum"
0<
/em>
)<
一些HTML的标签在下面的格式化中会去掉,这里就先不管。
我们看看要过滤的内容规则怎么写。
*<
,测试一下,没达到效果。
再试
OK了。
这里大家多测试就行了。
当然做好内容的识别规则,这里也省事。
文章内容文字替换
这里跟上面的标题一样。
文章内容包含关键字
设置该选项后,则只采集文章内容包含关键字的文章
文章内容关键字剔除过滤
设置该选项后,不会采集文章内容包含关键字的文章
文章内容格式化
此操作将去除网页多余代码,并将文章内容按原有段落分段.格式化的过程为程序自动分析,会存在一些误差.
文章内容分页模式
当选择上下页导航时,"
分页区域识别规则"
请将下一页配置成识别区域.
页码导航上下页导航
这里不存在分页。
我们再换个地址说明。
文章内容分页区域识别规则
这里换一个例子来说明。
如图,是页码导航。
这个是文章内的页码导航。
picpage"
selected"
第1页<
<
/wallpaper/240x400/super-mario-1552-2.html"
第2页<
/wallpaper/240x400/super-mario-1552-3.html"
第3页<
/wallpaper/240x400/super-mario-1552-4.html"
第4页<
很容易我们就得到要用的规则。
[pagearea]<
文章内容分页链接识别规则
这个也很直观,可以直接写出来。
链接规则请写准确,不然会出现“您当前的访问请求当中含有非法字符,已经被系统拒绝。
”的提示。
[page]"
上下页导航:
请将下一页配置成识别区域,不能包含其他链接,否则会不停重复采集。
原理是不停采集下一页的url,直到没有。
文章内容分页链接URL补充前缀
文章内容分页链接URL补充前缀"
为空时,程序自动补充前缀)
文章内容分页链接URL补充后缀
这个不常用,要用的时候观察一下就清楚了。
信息来源识别规则
这项导入到论坛或群组时用不上。
写规则就像写标题规则一样,比较容易。
说明也写得比较清楚,可以设置固定值。
作者识别规则
发布者UID
这个最好填上,为空时,手动采集时为当前操作者,自动采集时为触发计划任务的会员或游客。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 采集 VIP10 手册