奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx
- 文档编号:2301968
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:11
- 大小:17.38KB
奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx
《奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx》由会员分享,可在线阅读,更多相关《奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx(11页珍藏版)》请在冰豆网上搜索。
奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料
2020年南开大学《网络爬虫与信息提取》19秋期末考核参考答案
1.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
【选项】:
AXSS
BDOS
CDDOS
D跨域
【答案】:
CDDOS|
2.可以通过()绕过网站登录。
【选项】:
Asession
Bcookies
Cmoonpies
Dlocalstorage
【答案】:
Bcookies
|
3.使用UIAutomator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
【选项】:
Acontent
Btext
Ctitle
Dbody
【答案】:
Btext|
4.Python操作CSV文件可通过()容器的方式操作单元格
【选项】:
A列表
B元组
C字典
D集合
【答案】:
C字典|
5.Python中Object=(1,2,3,4,5),则Objcet是()
【选项】:
A列表
B元组
C字典
D集合
【答案】:
B元组|
6.HTTP常用状态码表明服务器正忙的是()
【选项】:
A500
B503
C403
D404
【答案】:
B503|
7.使用UIAutomator打开微信的操作是获取相应图标后使用命令()
【选项】:
Atouch
Bclick
Cpush
Dhover
【答案】:
Bclick|
8.Python中Object={'obj_1':
'1','obj_2':
'2'},则Objcet.get('boj_1','3')是()
【选项】:
A1
B2
C3
D无输出
【答案】:
A1|
9.采用以下()技术可以实现异步加载
【选项】:
AHTML
BAJAX
CCSS
DHTTP
【答案】:
BAJAX|
10.网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
【选项】:
Arobot.txt
Brobot.html
Crobots.txt
Drobots.html
【答案】:
Crobots.txt|
11.Chrome的开发者工具中哪个选项可以查找到cookies
【选项】:
AElements
BSources
CNetwork
DPeformance
【答案】:
CNetwork|
12.以下哪个命令是linux下解压缩命令()
【选项】:
Acurl
Btar-zxvf
Cmkdir
Dcp
【答案】:
Btar-zxvf|
13.MongoDB中数据存储的形式类似于()
【选项】:
A列表
B元组
C字典
D集合
【答案】:
C字典|
14.以下哪个HTML标签表示定义列表项目()
【选项】:
A
C
D
【答案】:
B
- |
15.python中可以用来将图片中的文字转换为文本的第三方类库是
【选项】:
Alxml
Brequests
Cbeautifulsoup
Dpytesseract
【答案】:
Dpytesseract|
16.下列哪项不是HTTP的请求类型()
【选项】:
AGET
BPOST
CPUT
DSET
【答案】:
DSET|
17.以下哪个HTML标签表示定义HTML表格中的标准单元格()
【选项】:
A
C
D
【答案】:
D
| 18.当爬虫创建好了之后,可以使用"scrapy()<爬虫名>"命令运行爬虫。
【选项】:
Astartup
Bstarwar
Cdrawl
Dcrawl
【答案】:
Dcrawl|
19.参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
【选项】:
AHEADER
BHEADERS
CHEAD
DBODY
【答案】:
BHEADERS|
20.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
【选项】:
Acurl
Btar-zxvf
Cmkdir
Dcp
【答案】:
Acurl|
21.MongoDB中获取名字为db的库的语句为()
【选项】:
Aclient.db
Bclient('db')
Cclient['db']
Dclient{'db'}
【答案】:
Aclient.db|Cclient['db']|
22.以下哪些方法属于Python写CSV文件的方法()
【选项】:
Awriteheaders
Bwriteheader
Cwriterrows
Dwriterow
【答案】:
Awriteheaders|Cwriterrows|Dwriterow|
23.下载器中间件的作用有哪些?
【选项】:
A更换代理IP
B更换Cookies
C更换User-Agent
D自动重试
【答案】:
A更换代理IP|B更换Cookies|C更换User-Agent|D自动重试|
24.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
【选项】:
A非法侵入计算机系统罪
B非法获取计算机信息系统数据罪
C非法获取计算机数据罪
D非法获取系统罪
【答案】:
A非法侵入计算机系统罪|B非法获取计算机信息系统数据罪|
25.Python中()容器有推导式
【选项】:
A列表
B元组
C字典
D集合
【答案】:
A列表|C字典|D集合|
26.通用网络爬虫通常采用串行工作方式
【选项】:
T对
F错
【答案】:
F错|
27.需要登录的网站一般通过GET请求就可以实现登录。
【选项】:
T对
F错
【答案】:
F错|
28.代理中间件的可用代理列表一定要写在settings.py里面
【选项】:
T对
F错
【答案】:
F错|
29.requests中get请求方法的使用为requests.get('网址',data=data)
【选项】:
T对
F错
【答案】:
F错|
30.所有的异步加载都会向后台发送请求
【选项】:
T对
F错
【答案】:
F错|
31.在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
src/redis-server
【选项】:
T对
F错
【答案】:
F错|
32.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
【选项】:
T对
F错
【答案】:
F错|
33.爬虫中间件的激活需要另外写一个文件来进行
【选项】:
T对
F错
【答案】:
F错|
34.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
【选项】:
T对
F错
【答案】:
F错|
35.Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
【选项】:
T对
F错
【答案】:
T对|
36.在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。
【选项】:
【答案】:
C语言
37.爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##
【选项】:
【答案】:
38.在Windows下运行Redis命令为##redis.windows.conf
【选项】:
【答案】:
路径运行命令
39.MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件##
【选项】:
【答案】:
40.lxml库中etree模块的etree.tostring()方法是做什么用的
【选项】:
【答案】:
41.请描述爬虫中的深度优先搜索过程
【选项】:
【答案】:
深度优先搜索属于图算法的一种,是一个针对图和树的遍历算法,英文缩写为DFS即DepthFirstSearch。
深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。
一般用堆数据结构来辅助实现DFS算法。
其过程简要来说是对每一个可能的分支路径深入到不能再深入为止,而且每个节点只能访问一次。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络爬虫与信息提取 南开大学 网络 爬虫 信息 提取 19 期末 考核 参考答案 资料
冰豆网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。关于本文copyright@ 2008-2022 冰点文档网站版权所有
经营许可证编号:鄂ICP备2022015515号-1
B
- |
B