10293 数据采集与管理.docx
- 文档编号:2840510
- 上传时间:2022-11-15
- 格式:DOCX
- 页数:27
- 大小:23.87KB
10293 数据采集与管理.docx
《10293 数据采集与管理.docx》由会员分享,可在线阅读,更多相关《10293 数据采集与管理.docx(27页珍藏版)》请在冰豆网上搜索。
10293数据采集与管理
通过HTTP或者HTTPS协议请求的资源由作()来标识。
a.HTML
B.URL
C.TCP
D.FTP
回答正确
解析:
无
2单选追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些“杂乱”的“脏”数据,就涉及到()技术。
a.数据采集
B.数据统计
C.数据清洗
D.数据预测
回答正确
解析:
略
3单选网络数据采集一般是通过()或网站公开aPI等方式从网站上获取数据信息。
a.网络爬虫
B.网站日志
C.HTTP
D.表单
回答正确
解析:
略
4单选一次HTTP由()组成。
a.一次请求
B.一次响应
C.一次请求和一次响应
D.两次请求
回答正确
解析:
略
5单选在HTTP请求中,通过()方法发送的表单数据,会放在URL之后,以?
分割URL和传输数据,参数之间以&相连,可能会造成信息泄露问题。
a.GET
B.POST
C.PUT
D.CONNECT
回答正确
解析:
略
6单选HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。
a.Host
B.Referer
C.User-agent
D.Content-Length
回答正确
解析:
略
7单选发送了一个HTTP请求后,客户端收到一个200的响应,这表示()。
a.拒绝访问
B.登录失败
C.重定向到其他URL
D.请求成功
回答正确
解析:
略
8单选如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
a.增量式网络爬虫
B.聚焦网络爬虫
C.DeepWeb爬虫
D.全网爬虫
回答正确
解析:
略
9单选()的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。
a.广度优先
B.深度优先
C.基于目标特征
D.基于领域
回答正确
解析:
略
10单选在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。
要解决中文乱码的问题,需将其转换为(),这样就可以读取中文。
a.无符号数字
B.UNICODE编码
C.字节流
D.字符流
回答正确
在正则表达式中\d匹配()
a.数字
B.字母、数字、下划线
C.任意字符
D.转义字符
回答正确
解析:
略
2单选在正则表达式中?
匹配()
a.字符出现0次以上
B.字符出现一次以上
C.字符出现0次或1次
D.字符出现1次
回答正确
解析:
略
3单选使用正则表达式时,使用()设置匹配规则。
a.Matcher
B.Pattern
C.find
D.group
回答正确
解析:
略
4单选因数据库本身限制,在采集海量数据时存在性能瓶颈,因此海量数据建议用()的方式保存,也方便与大数据底层交互。
a.文本
B.图像
C.数字
D.记录
回答正确
解析:
略
5多选以下哪些是Matcher类的方法()
a.start()
B.end()
C.find()
D.group()
回答正确
解析:
略
6单选在整站采集时,一般从源地址出发,使用()算法实现。
a.差分
B.线性
C.分治
D.递归
回答正确
解析:
略
7单选整站采集的步骤一般是()
a.匹配href连接地址;与原本地址拼接;读取网页中的a标签;找到关联网页并爬取
B.读取网页中的a标签;匹配href连接地址;与原本地址拼接;找到关联网页并爬取
C.找到关联网页并爬取;读取网页中的a标签;与原本地址拼接;匹配href连接地址
D.找到关联网页并爬取;与原本地址拼接;匹配href连接地址;读取网页中的a标签
回答正确
解析:
略
8多选保存采集的数据的方式有()
a.文本
B.XML文件
C.音频
D.数据库
回答正确
Hertrix默认的运行端口是()
a.80
B.8080
C.10
D.1010
回答正确
解析:
略
2单选运行Hertrix前首先要搭建()运行环境。
a.Java
B.C++
C.Python
D.C#
回答正确
解析:
无
3单选配置Hertrix的爬取设置是在()模块。
a.Logs
B.Help
C.Profiles
D.Reports
回答正确
解析:
无
4单选配置了Hertrix爬取设置后,在()模块可以新建任务并运行。
a.Logs
B.Jobs
C.Reports
D.Setup
回答正确
解析:
无
5单选使用Hertrix爬取网页时建议使用()模式。
a.Mirror
B.KW3
C.aRC
D.TXT
回答正确
解析:
无
6单选网站一般在()文件中描述被爬取的规则。
a.License.txt
B.robots.txt
C.ReadMe.txt
D.hentrix.txt
回答正确
解析:
无
7单选()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。
a.Crawler
B.Jsoup
C.Hertrix
D.Nutch
回答正确
解析:
无
8单选以下哪种说法是正确的()
a.Hertrix爬取过程中进度会自动刷新
B.在Hertrix中建立了爬取任务后会自动开始
C.Hertrix是不可扩展的
D.可通过修改配置文件更改使用时的用户名和密码
回答正确
解析:
无
Hertrix默认的运行端口是()
a.80
B.8080
C.10
D.1010
回答正确
解析:
略
2单选运行Hertrix前首先要搭建()运行环境。
a.Java
B.C++
C.Python
D.C#
回答正确
解析:
无
3单选配置Hertrix的爬取设置是在()模块。
a.Logs
B.Help
C.Profiles
D.Reports
回答正确
解析:
无
4单选配置了Hertrix爬取设置后,在()模块可以新建任务并运行。
a.Logs
B.Jobs
C.Reports
D.Setup
回答正确
解析:
无
5单选使用Hertrix爬取网页时建议使用()模式。
a.Mirror
B.KW3
C.aRC
D.TXT
回答正确
解析:
无
6单选网站一般在()文件中描述被爬取的规则。
a.License.txt
B.robots.txt
C.ReadMe.txt
D.hentrix.txt
回答正确
解析:
无
7单选()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。
a.Crawler
B.Jsoup
C.Hertrix
D.Nutch
回答正确
解析:
无
8单选以下哪种说法是正确的()
a.Hertrix爬取过程中进度会自动刷新
B.在Hertrix中建立了爬取任务后会自动开始
C.Hertrix是不可扩展的
D.可通过修改配置文件更改使用时的用户名和密码
回答正确
HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。
选择一项:
a.WWW-authenticate
b.Connection
c.Refresh
d.Location
正确本题标准答案是是:
Refresh
通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。
我们称这个客户端叫()。
选择一项:
a.源服务器
b.用户代理
c.播放器
d.数据库
正确本题标准答案是是:
用户代理
()爬行过程中最重要部分就是表单填写及处理。
选择一项:
a.深层网络爬虫
b.增量式网络爬虫
c.通用网络爬虫
d.聚焦网络爬虫
正确本题标准答案是是:
深层网络爬虫
以下哪个HTTP响应状态表示服务器端错误()
选择一项:
a.300
b.403
c.200
d.500
正确本题标准答案是是:
500
在HTTP响应信息中,若状态信息码是404则表示()。
选择一项:
a.没有找到请求的页面
b.所请求的页面已经转移至新的url
c.登录失败
d.访问被禁止
正确本题标准答案是是:
没有找到请求的页面
在HTP响应信息中,若状态信息码是200则表示()。
选择一项:
a.登录失败
b.请求成功
c.访问被禁止
d.所请求的页面已经转移至新的url
正确本题标准答案是是:
请求成功
HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
选择一项:
a.GET
b.POST
c.PUT
d.TRaCE
正确本题标准答案是是:
POST
HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。
选择一项:
a.Host
b.User-agent
c.Referer
d.Cookie
正确本题标准答案是是:
User-agent
()的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
选择一项:
a.深度优先策略
b.随机爬行策略
c.PageRank优先策略
d.广度优先策略
正确本题标准答案是是:
深度优先策略
以下不属于HTTP协议的主要特点的是()。
选择一项:
a.支持基本认证和安全认证
b.有状态
c.简单快速
d.支持客户/服务器模式
正确本题标准答案是是:
有状态
如果HTTP请求的响应信息是404,则应采取下列哪项措施()。
选择一项:
a.向管理员请求用户名和密码
b.再次核对请求的页面地址是否正确
c.检查浏览器权限
d.向网管报障
正确本题标准答案是是:
再次核对请求的页面地址是否正确
以下哪个不属于HTTP请求信息()。
选择一项:
a.accept-Language
b.Connection
c.Expires
d.User-agent
正确本题标准答案是是:
Expires
追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些"杂乱”的"脏”数据,就涉及到()技术。
选择一项:
a.数据预测
b.数据清洗
c.数据采集
d.数据统计
正确本题标准答案是是:
数据清洗
()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
选择一项:
a.聚焦网络爬虫
b.增量式网络爬虫
c.深层网络爬虫
d.通用网络爬虫
正确本题标准
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10293 数据采集与管理 数据 采集 管理