书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 财务管理 > 八爪鱼爬虫模拟登录抓取数据.docx

八爪鱼爬虫模拟登录抓取数据.docx

文档编号：9554219
上传时间：2023-02-05
格式：DOCX
页数：10
大小：1.39MB

八爪鱼爬虫模拟登录抓取数据.docx

《八爪鱼爬虫模拟登录抓取数据.docx》由会员分享，可在线阅读，更多相关《八爪鱼爬虫模拟登录抓取数据.docx（10页珍藏版）》请在冰豆网上搜索。

八爪鱼爬虫模拟登录抓取数据.docx

八爪鱼爬虫模拟登录抓取数据

八爪鱼使用cookie登陆网站采集数据（7.0版本）

本文给大家演示，通过记录Cookie登录网站，再进行数据采集的方式。

Cookie：

某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。

在八爪鱼里，有些网站是需要登陆账号之后，才能进行采集数据。

我们需要先做一个登录流程，登陆进网站，然后获取登陆后的Cookie，记住登陆状态，浏览器即会自动打开登陆后要采集的网址。

登录网址：

示例网址：

我们需要先创建一个登录流程：

在登录网址里面，输入用户名、密码，登陆网站。

然后获取登陆后的Cookie，记住登陆状态。

步骤1：

打开网页

1）登陆八爪鱼7.0采集器，点击新建任务，选择“自定义采集”，进入到任务配置页面

2）然后输入登录网址，点击“保存网址”，系统会进入到流程设计页面并自动打开前面输入的登录网址

Cookie登录方法（7.0）-图1

步骤2：

登录网站

1）在浏览器中，用鼠标点击用户名输入框，输入自己的用户名。

用同样的方式输入密码

Cookie登录方法（7.0）-图2

2）在浏览器中，用鼠标点击登陆按钮，在右边弹出的提示框里选择“点击该按钮”（或直接按键盘上的enter键也可）

Cookie登录方法（7.0）-图3

3）浏览器会自动登陆，打开我们最终需要采集数据的网址。

这时登陆流程便做好了

步骤3：

新建“打开网页”

1）打开“流程”。

在流程设计器中，拖入一个打开网页的步骤

2）输入最终要采集的网址URL，点击“确定”。

八爪鱼浏览器以登录后的状态打开了此URL

Cookie登录方法（7.0）-图4

3）在拖入“打开网页”的步骤之后，默认超时时间是空白的。

我们需要给网站设置一个加载时间，这里设置20秒即可

Cookie登录方法（7.0）-图5

步骤4：

记录Cookie

1）选中“打开网页”步骤，点开“缓存设置”，勾选“打开网页的自定义Cookie”，点击获取当前页面的Cookie（可以点一下旁边的箭头，查看是否获取了cookie）

2）获取到登陆之后的Cookie之后，点击“确定”按钮。

八爪鱼会记住这个Cookie状态，下次会以登陆之后的状态打开

Cookie登录方法（7.0）-图6

步骤5：

删除多余步骤

1）流程设计器里，把其他多余的步骤删掉

Cookie登录方法（7.0）-图7

2）然后按照新手入门的方法提取数据。

这里以随便提取一个字段为例，设置好之后点击“确定”按钮进行保存

Cookie登录方法（7.0）-图8

步骤6：

数据采集

1）选择保存并启动，选择“启动本地采集”。

系统将会在本地启动一个采集流程并执行采集规则

Cookie登录方法（7.0）-图9

2）可以看到，数据采集正常进行。

采集完成之后，选择导出数据

Cookie登录方法（7.0）-图10

本教程重点是教用户怎么通过记住Cookie登录网站，后面的数据采集步骤，按照之前的教程提取。

具体可参考：

分页列表信息采集分页列表详细信息采集AJAX点击和翻页（上）AJAX点击和翻页（下）AJAX滚动教程

注意：

cookie是有生命周期的，周期时间取决于采集的网站。

如果cookie到期了，就需要再重新获取一次登陆之后的cookie。

另外如果需要切换账号，可以勾选打开浏览器前清理缓存，然后再取消cookie，重新设置其他账号即可。

Cookie登录方法（7.0）-图11

注意：

有些网站，这个登录框其实是iframe的登录框。

iframe即html标签，会创建包含另外一个文档的内联框架（即行内框架），含义是网页中的网页。

例如上面天猫的登陆地址，八爪鱼获取的是当时操作时的iframe，但是天猫有防采集措施，如果登录框的xpath有变化的话，就需要通过下面的方式获取登录框的详细URL直接输入这个URL做登陆流程。

我们可以通过火狐获取登陆框的详细地址，然后直接输入这个详细的地址进行流程设计。

在火狐浏览器上，用鼠标右键点击登录框，选择此框架，查看框架信息，地址。

这个地址，即为登录框的真实地址。

获取到这个地址之后，在八爪鱼里，输入这个地址做规则即可。

Cookie登录方法（7.0）-图12：

查看框架信息

Cookie登录方法（7.0）-图13：

复制地址栏中的URL

Cookie登录方法（7.0）-图14：

在网页中打开复制的URL

相关采集教程：

天猫店铺采集

黄页88数据采集

搜狗微信文章采集

八爪鱼——70万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：

无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：

对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

3、云采集，关机也可以。

配置好采集任务后可关机，任务可在云端执行。

庞大云采集集群24*7不间断运行，不用担心IP被封，网络中断。

4、功能免费+增值服务，可按需选择。

免费版具备所有功能，能够满足用户的基本采集需求。

同时设置了一些增值服务（如私有云），满足高端付费企业用户的需要。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 八爪鱼爬虫模拟登录抓取数据

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：八爪鱼爬虫模拟登录抓取数据.docx
链接地址：https://www.bdocx.com/doc/9554219.html

八爪鱼爬虫模拟登录抓取数据.docx

热门标签