八爪鱼爬虫模拟登录抓取数据.docx
- 文档编号:9554219
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:10
- 大小:1.39MB
八爪鱼爬虫模拟登录抓取数据.docx
《八爪鱼爬虫模拟登录抓取数据.docx》由会员分享,可在线阅读,更多相关《八爪鱼爬虫模拟登录抓取数据.docx(10页珍藏版)》请在冰豆网上搜索。
八爪鱼爬虫模拟登录抓取数据
八爪鱼使用cookie登陆网站采集数据(7.0版本)
本文给大家演示,通过记录Cookie登录网站,再进行数据采集的方式。
Cookie:
某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。
在八爪鱼里,有些网站是需要登陆账号之后,才能进行采集数据。
我们需要先做一个登录流程,登陆进网站,然后获取登陆后的Cookie,记住登陆状态,浏览器即会自动打开登陆后要采集的网址。
登录网址:
示例网址:
我们需要先创建一个登录流程:
在登录网址里面,输入用户名、密码,登陆网站。
然后获取登陆后的Cookie,记住登陆状态。
步骤1:
打开网页
1)登陆八爪鱼7.0采集器,点击新建任务,选择“自定义采集”,进入到任务配置页面
2)然后输入登录网址,点击“保存网址”,系统会进入到流程设计页面并自动打开前面输入的登录网址
Cookie登录方法(7.0)-图1
步骤2:
登录网站
1)在浏览器中,用鼠标点击用户名输入框,输入自己的用户名。
用同样的方式输入密码
Cookie登录方法(7.0)-图2
2)在浏览器中,用鼠标点击登陆按钮,在右边弹出的提示框里选择“点击该按钮”(或直接按键盘上的enter键也可)
Cookie登录方法(7.0)-图3
3)浏览器会自动登陆,打开我们最终需要采集数据的网址。
这时登陆流程便做好了
步骤3:
新建“打开网页”
1)打开“流程”。
在流程设计器中,拖入一个打开网页的步骤
2)输入最终要采集的网址URL,点击“确定”。
八爪鱼浏览器以登录后的状态打开了此URL
Cookie登录方法(7.0)-图4
3)在拖入“打开网页”的步骤之后,默认超时时间是空白的。
我们需要给网站设置一个加载时间,这里设置20秒即可
Cookie登录方法(7.0)-图5
步骤4:
记录Cookie
1)选中“打开网页”步骤,点开“缓存设置”,勾选“打开网页的自定义Cookie”,点击获取当前页面的Cookie(可以点一下旁边的箭头,查看是否获取了cookie)
2)获取到登陆之后的Cookie之后,点击“确定”按钮。
八爪鱼会记住这个Cookie状态,下次会以登陆之后的状态打开
Cookie登录方法(7.0)-图6
步骤5:
删除多余步骤
1)流程设计器里,把其他多余的步骤删掉
Cookie登录方法(7.0)-图7
2)然后按照新手入门的方法提取数据。
这里以随便提取一个字段为例,设置好之后点击“确定”按钮进行保存
Cookie登录方法(7.0)-图8
步骤6:
数据采集
1)选择保存并启动,选择“启动本地采集”。
系统将会在本地启动一个采集流程并执行采集规则
Cookie登录方法(7.0)-图9
2)可以看到,数据采集正常进行。
采集完成之后,选择导出数据
Cookie登录方法(7.0)-图10
本教程重点是教用户怎么通过记住Cookie登录网站,后面的数据采集步骤,按照之前的教程提取。
具体可参考:
分页列表信息采集分页列表详细信息采集AJAX点击和翻页(上)AJAX点击和翻页(下)AJAX滚动教程
注意:
cookie是有生命周期的,周期时间取决于采集的网站。
如果cookie到期了,就需要再重新获取一次登陆之后的cookie。
另外如果需要切换账号,可以勾选打开浏览器前清理缓存,然后再取消cookie,重新设置其他账号即可。
Cookie登录方法(7.0)-图11
注意:
有些网站,这个登录框其实是iframe的登录框。
iframe即html标签,会创建包含另外一个文档的内联框架(即行内框架),含义是网页中的网页。
例如上面天猫的登陆地址,八爪鱼获取的是当时操作时的iframe,但是天猫有防采集措施,如果登录框的xpath有变化的话,就需要通过下面的方式获取登录框的详细URL直接输入这个URL做登陆流程。
我们可以通过火狐获取登陆框的详细地址,然后直接输入这个详细的地址进行流程设计。
在火狐浏览器上,用鼠标右键点击登录框,选择此框架,查看框架信息,地址。
这个地址,即为登录框的真实地址。
获取到这个地址之后,在八爪鱼里,输入这个地址做规则即可。
Cookie登录方法(7.0)-图12:
查看框架信息
Cookie登录方法(7.0)-图13:
复制地址栏中的URL
Cookie登录方法(7.0)-图14:
在网页中打开复制的URL
相关采集教程:
天猫店铺采集
黄页88数据采集
搜狗微信文章采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:
无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:
对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。
配置好采集任务后可关机,任务可在云端执行。
庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。
免费版具备所有功能,能够满足用户的基本采集需求。
同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 八爪鱼 爬虫 模拟 登录 抓取 数据