书签 分享 收藏 举报 版权申诉 / 16

类型seo小魏讲解火车头采集教程与实例.docx

  • 文档编号:6315786
  • 上传时间:2023-01-05
  • 格式:DOCX
  • 页数:16
  • 大小:2.52MB
”是“”后面第一次出现的地方。

复制“

”到“结束字符串”处。

火车采集器的所有版本均支持下载图片。

这里所说的图片是源代码里的有

所以只要您采集的源代码里有这这样的图片代码,采集器会将其中的图片下载到本地。

如果是一个直接的图片地址,如,采集器是会做为文件下载。

下载文件是需要收费版本支持。

图片的下载设置如下:

1.在内容页标签编辑框中选中下载图片。

2.任意格式文件下载及保存设置

收费版本的程序支持任意文件的下载。

具体是使用时选中探测文件并下载即可。

需要注意的是:

这个功能可以下载论坛附件或要下载站的文件,比如论坛附件下载地址是d.asp?

id=1,那么只要在下载文件地必须包含里写上d.asp就可以下载源码里包含这个字符串链接中的附件了。

注意这个在有些站是需要你登陆后才可以下载。

所以有时下载不了,请注意您是否登陆或是有权限下载那些文件。

还有的情况是你获取的登陆信息不正确,相当于没登陆.也会导致下载不成功。

如果使用单一的地址,比如直接是一个文件的地址,程序会自动去下载并判断文件类型。

如果是多个文件实际地址请用分隔符 #||# 相连,程序会分别进行下载.

在下载前请做好测试。

具体在规则测试那里可以看到下载结果。

3.设置保存目录:

文件的命名:

为了防止同一目录下保存太多的文件,采集器支持随机目录保存方式,默认按时间按一定的规则生成目录保存文件。

看图,注意这里的绿色符号都是用特殊含义的,yyyy代表是年,如最后产生的就是2009,MM是月,其它类推,如果你要命名为yyyy,则需要对绿色字符进行转义,即\y\y\y\y,前一个斜杠即可.文件保存地址也一样.可以设置同步(边下内容边下图片),异步(下完内容在下图片)。

设置好图片保存目录后,便可以点击“确定”按钮后点“测试”按钮可以把图片下载到本地来,如图:

测试之后得到的图片保存在\Data\TestOnly文件下。

采集保存到你设置的目录下面。

看下图:

在上面也可以选择“使用自定义固定格式的数据”

具体怎么实现这这里不讲了,因为很少选择它。

“页面内容标签定义”有个“同时采集多页页面“什么意思呢?

看下图:

点击“同时采集多页页面“按钮便进入如下图:

何为多页?

本来我们是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。

但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不他网址在默认页里,要不他网址和默认页网址有联系。

我们就这个问题来讲一下具体的解决办法。

这里有两种途径获得第三个网址,我们先讲从默认页网址替换得到新网址。

我们以这个页面为例,比如我们要获得全部的”剧情简介“,就得进入一下页,刚好这两页有关系,”剧情简介“页面的地址是introduction,这里可以使用普通替换,也可以使用正则。

我们看一下。

这样就可以获得所需要的了。

当然这里组合也可以有多个$的,比如$1,$2。

下边我们说一下用默认页源代码中获得网址的方法来处理上边的网址,

这样就可以获得和上边一样的效果了。

通过上面的标题和图片标签设置并测试之后没有问题了,还不能确定对于其他的内容地址是可行的,因此你要多测试几个内容页地址,测试其它地址和上面一样。

测试完之后便可以进行发布内容了。

5.发布内容:

如下图:

方式一,方式三,方式四都需要收费,在这里便不讲了。

导出采集数据为txt,csv,sql格式:

除了能将采集的数据Web发布到网站,直接导入数据库,采集器还可以将数据保存到本地。

目前采集器支持的文件格式有:

1.csv您只需要选择一下csv文件夹的目录,采集器会生成一个csv文件,文件里的标签次序和在任务编辑里的标签排序是一致的。

2.html您需要指定html模板,该模板的内容和web发布模块的方式基本一致。

比如[标签:

标题]将会被替换成实际采集的内容。

3.txt程序将所有的记录保存在一个txt文本里,每个标签之间用换行间隔。

注意:

本地文件的编码需要注意,默认的保存方式是和采集源一样的编码。

如果您指定了某种编码,请将html文件也保存成相应的编码文件。

请按下图进行设置。

设置完之后便可以采数据了。

6.抓数据:

点击该站点下要执行的任务,右击选择“开始任务采集”便出现如图:

当运行完之后便产生一个文件,打开文件便是抓取下来的内容。

如果你抓取了图片,便会出现:

图片保存在你设置的图片路径。

看下图:

配套讲稿:

如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制:

部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

关 键  词:
seo 讲解 火车头 采集 教程 实例
提示  冰豆网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:seo小魏讲解火车头采集教程与实例.docx
链接地址:https://www.bdocx.com/doc/6315786.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2008-2022 冰点文档网站版权所有

经营许可证编号:鄂ICP备2022015515号-1

收起
展开