网站采集方法火车头版文档格式.docx
- 文档编号:17594136
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:15
- 大小:597.36KB
网站采集方法火车头版文档格式.docx
《网站采集方法火车头版文档格式.docx》由会员分享,可在线阅读,更多相关《网站采集方法火车头版文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。
因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。
程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。
您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。
程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。
这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。
这个过程是获得数据的过程。
我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。
可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。
比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。
总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。
二、术语解释
名称
说明
采集规则
采集规则分为站点规则和任务规则,通常是指任务规则。
所谓采集规则就是要采集一个网站时在软件里进行的设置。
这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。
站点规则文件的后缀名为:
.lsite;
任务规则文件的后缀名为:
.ljob。
采集任务
采集任务又简称为任务。
它是采集规则和发布规则的总和。
也是采集规则和发布规则的载体。
采集规则和发布规则的设置通过在任务编辑框里进行设置。
从采集器里导出的采集规则文件(.ljob后缀的)也可称为任务规则。
导入导出任务规则就是指导入导出.ljob文件。
发布模块
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。
所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:
指定数据库,网站中)时在软件里进行的设置。
这个设置可以保存成一个文件并可以导入到采集器里使用。
数据库发布模块文件的后缀名为:
.jhc;
WEB在线发布模块文件的后缀名为:
.cwr。
(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。
采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。
可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。
如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。
从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。
注意这里的说的采集规则是指采集网站和抓取内容的设置。
)
发布接口
发布接口就是一个小的页面程序通常和WEB发布模块配合使用。
WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序中由网站程序处理数据。
而发布接口就是为了满足特定需求而写的一个网站的页面程序(如:
PHP页面,ASP页面等)。
然后采集器通过WEB在线发布将数据发送到这个接口文件由这个接口文件处理数据。
接口文件通常放在服务器网站某个目录下。
简单的说就是采集器将采集的数据发送到接口文件中,接口文件得到数据后去处理数据。
使用发布接口用户可以更加灵活自由的处理采集器发送的数据。
插件
火车采集器里的插件分为PHP插件和.NET插件两种。
标准版支持PHP插件,企业版支持PHP插件和.NET插件。
插件可以让用户通过自己写PHP程序或者.NET程序放到采集器中对采集的数据进行处理。
采集数据数据在四个地方可以使用插件,分别为:
采网址时、采内容时、采多页时,保存时。
发布数据
发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。
方式一:
Web在线发布到网站
这种发布方式类似于在网站后台手工添加数据一样。
采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。
方式二:
保存为本地文件
这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:
导入到自定义数据库
这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,目前采集器支持连接Mysql、Access、Oracle、MSsql数据库。
方式四:
保存为本地Sql文件(Insert语句)
这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。
本地编辑数据
采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。
支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
三、下载地址
软件名称
下载地址
软件描述
LocoySpiderV2010SP2_Free_Build2010-11-15.rar
火车头采集器绿色版
.netframework2.0
四、安装升级与卸载
火车采集器系统需求
火车采集器可以运行于Windows2000或以上操作系统,CPU的速度为"
奔腾133MHz"
或以上,128MB内存容量或以上。
火车采集器的安装
火车采集器2010版是绿色软件。
如果您电脑上安装了微软的.NETFrameWork2.0框架或更高版本,安装时直接解压缩到您电脑的任何地方即可完成采集器的安装--安装过程不操作注册表和系统文件,不产生任何垃圾文件!
如果您安装后程序无法启动,那可能是您电脑没有安装.NETFrameWork2.0,请下载微软的.NETFrameWork2.0框架或更高版本并安装。
附2.0下载地址:
.netframework2.0下载地址:
解压完成后,双击目录内的LocoySpider.exe文件启动主程序开始采集之旅。
火车采集器的升级
从火车采集器V3.2SP5,V2008或V2009版本升级到V2010:
请运行程序目录下的UpdateTo2010.exe程序,按提示进行操作。
火车采集器卸载
由于种种原因,您暂时不想使用火车采集器了,那么您直接找到火车采集器的安装文件夹删除即可以完成火车采集器的卸载。
在卸载前强烈建议您先备份,User,Plugins,Data和Module文件夹(即用户配置,插件目录,采集数据和模块)以便下次使用!
五、操作步骤
a)打开火车头主程序,进入到火车头的主界面,主程序和主界面如下
b)新建站点
点击左上角的“新建->
新建站点”进入到该新建页面,图如下
在站点名输入想要采集的网站的名称,然后保存即可
c)新建任务
选择新建好的站点“测试1”,点击左上角的“新建->
新建任务”进入到该新建页面,图如下
在新建任务这个页面中,一共包含4个步骤,一次是 采集网址规则,采集内容规则,发布内容设置和文件保存及部分高级设置
1采集网址规则
首先选择站点测试1,任务名根据你要采集的对象命名,例如新闻。
采集网址深度,就是网站结构的深度,默认为1或者0,如果需要采集更深入,可以选择2,网站编码设为自动识别即可,检测重复网站保持默认不变,
http获取方式,根据情况而定,默认为get方式,点击向导添加按钮,进入添加网址页面
常用的就是单挑网址和批量多页,在地址栏输入你要采集的网站地址,点击添加,地址就会自动保存到下面,点击完成即可,批量/多页用到的情况是,一个页面有多个子页面的情况下使用,例如,一个城市页面,子页面有公交线路,旅游风景之类的情况下使用。
点击完成后,回到了上一个界面,点击右下角的“开始测试网址采集”按钮,开始采集网址。
在网址采集的结果中,该网站所有目录都被采集了出来,并不是每一个网址的信息就都需要采集,比如我们只需要
然后重新点击“开始测试网址采集”,进行采集,其结果如下图
那么第一部的采集网址规则设定就完成了
2采集内容规则
采集内容规则,也就是说你要从才一个页面采集那些信息,然后制定一个公式。
在第一部中,任意选择一个页面地址,然后点击右边栏的“测试该页”进入到第二部:
采集内容规则界面
点击右上角的“测试”按钮,在下面的文本框就会显示该网址的html代码,根据这些html和自己需要采集的内容制定标签,在页面内容标签定义中,点击“添加标签”,进入添加标签定义页面
输入标签名,标签名对应所要采集的数据,在该标签页面中,有相应的功能,支持正则表达式和标签排除,开始字符串和结束字符串即为要采集的数据,例如<
title>
123<
/title>
开始字符串为<
结束字符串为<
/titile>
那么采集的数据则为123,文件的下载支持图片,flash等文件,在自定义固定格式的数据中,有更多格式对网页进行过滤,这里不多讲解
标签规则制定完了以后,点击“确定”按钮保存,回到上一个页面!
然后点击页面的“测试”按钮,使用标签对网页进行过滤,查看效果,做及时的修改,如果结果没问题,第二部就完成!
3发布内容设置!
在该页面中,主要是对采集好的数据进行保存,这里一共有4种保存方式,第一种则是直接发送到自己网站的根目录,第二种则是保存html,txt,cvs。
3种文件格式,其中html方式,支持html模版!
第三种则是直接保存至数据库,支持的数据库有access,mysql,sqlserver,oracle,4种,数据库方式,需要先建立好数据库和表。
第四种则是保存为sql文件
4文件保存及部分高级设置
第四部主要是对运行任务的管理,图片,flash文件的保存进行管理,支持FTP。
这四部完成了以后,点击保存按钮,采集设计就完成了
d)任务采集!
保存后自动回到火车头的主界面。
选择要采集的任务
点击开始按钮即可,或者,右键该任务,选择“开始任务采集”火车就开始按照制定的规则开始采集信息了
其他
火车头支持定时任务功能
可以制定详细的计划,对指定的网站进行定时采集功能,支持多任务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网站 采集 方法 火车 头版
![提示](https://static.bdocx.com/images/bang_tan.gif)