书签分享收藏举报版权申诉 / 27

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 笔试 > 10293 数据采集与管理.docx

10293 数据采集与管理.docx

文档编号：2840510
上传时间：2022-11-15
格式：DOCX
页数：27
大小：23.87KB

10293 数据采集与管理.docx

《10293 数据采集与管理.docx》由会员分享，可在线阅读，更多相关《10293 数据采集与管理.docx（27页珍藏版）》请在冰豆网上搜索。

10293 数据采集与管理.docx

10293数据采集与管理

通过HTTP或者HTTPS协议请求的资源由作（）来标识。

a.HTML

B.URL

C.TCP

D.FTP

回答正确

解析:

无

2单选追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些“杂乱”的“脏”数据，就涉及到（）技术。

a.数据采集

B.数据统计

C.数据清洗

D.数据预测

回答正确

解析:

略

3单选网络数据采集一般是通过（）或网站公开aPI等方式从网站上获取数据信息。

a.网络爬虫

B.网站日志

C.HTTP

D.表单

回答正确

解析:

略

4单选一次HTTP由（）组成。

a.一次请求

B.一次响应

C.一次请求和一次响应

D.两次请求

回答正确

解析:

略

5单选在HTTP请求中，通过（）方法发送的表单数据，会放在URL之后，以?

分割URL和传输数据，参数之间以&相连，可能会造成信息泄露问题。

a.GET

B.POST

C.PUT

D.CONNECT

回答正确

解析:

略

6单选HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

a.Host

B.Referer

C.User-agent

D.Content-Length

回答正确

解析:

略

7单选发送了一个HTTP请求后，客户端收到一个200的响应，这表示（）。

a.拒绝访问

B.登录失败

C.重定向到其他URL

D.请求成功

回答正确

解析:

略

8单选如果要采集指定的数据，则需要使用到（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

a.增量式网络爬虫

B.聚焦网络爬虫

C.DeepWeb爬虫

D.全网爬虫

回答正确

解析:

略

9单选（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

a.广度优先

B.深度优先

C.基于目标特征

D.基于领域

回答正确

解析:

略

10单选在使用Java实现网络爬虫时，由于InputStream类型默认是字节流，无法处理中文，将会出现乱码。

要解决中文乱码的问题，需将其转换为（），这样就可以读取中文。

a.无符号数字

B.UNICODE编码

C.字节流

D.字符流

回答正确

在正则表达式中\d匹配（）

a.数字

B.字母、数字、下划线

C.任意字符

D.转义字符

回答正确

解析:

略

2单选在正则表达式中?

匹配（）

a.字符出现0次以上

B.字符出现一次以上

C.字符出现0次或1次

D.字符出现1次

回答正确

解析:

略

3单选使用正则表达式时，使用（）设置匹配规则。

a.Matcher

B.Pattern

C.find

D.group

回答正确

解析:

略

4单选因数据库本身限制，在采集海量数据时存在性能瓶颈，因此海量数据建议用（）的方式保存，也方便与大数据底层交互。

a.文本

B.图像

C.数字

D.记录

回答正确

解析:

略

5多选以下哪些是Matcher类的方法（）

a.start（）

B.end（）

C.find（）

D.group（）

回答正确

解析:

略

6单选在整站采集时，一般从源地址出发，使用（）算法实现。

a.差分

B.线性

C.分治

D.递归

回答正确

解析:

略

7单选整站采集的步骤一般是（）

a.匹配href连接地址；与原本地址拼接；读取网页中的a标签；找到关联网页并爬取

B.读取网页中的a标签；匹配href连接地址；与原本地址拼接；找到关联网页并爬取

C.找到关联网页并爬取；读取网页中的a标签；与原本地址拼接；匹配href连接地址

D.找到关联网页并爬取；与原本地址拼接；匹配href连接地址；读取网页中的a标签

回答正确

解析:

略

8多选保存采集的数据的方式有（）

a.文本

B.XML文件

C.音频

D.数据库

回答正确

Hertrix默认的运行端口是（）

a.80

B.8080

C.10

D.1010

回答正确

解析:

略

2单选运行Hertrix前首先要搭建（）运行环境。

a.Java

B.C++

C.Python

D.C#

回答正确

解析:

无

3单选配置Hertrix的爬取设置是在（）模块。

a.Logs

B.Help

C.Profiles

D.Reports

回答正确

解析:

无

4单选配置了Hertrix爬取设置后，在（）模块可以新建任务并运行。

a.Logs

B.Jobs

C.Reports

D.Setup

回答正确

解析:

无

5单选使用Hertrix爬取网页时建议使用（）模式。

a.Mirror

B.KW3

C.aRC

D.TXT

回答正确

解析:

无

6单选网站一般在（）文件中描述被爬取的规则。

a.License.txt

B.robots.txt

C.ReadMe.txt

D.hentrix.txt

回答正确

解析:

无

7单选（）是Hadoop的前身，是一种分布式爬虫工具，更适合集群爬取。

a.Crawler

B.Jsoup

C.Hertrix

D.Nutch

回答正确

解析:

无

8单选以下哪种说法是正确的（）

a.Hertrix爬取过程中进度会自动刷新

B.在Hertrix中建立了爬取任务后会自动开始

C.Hertrix是不可扩展的

D.可通过修改配置文件更改使用时的用户名和密码

回答正确

解析:

无

Hertrix默认的运行端口是（）

a.80

B.8080

C.10

D.1010

回答正确

解析:

略

2单选运行Hertrix前首先要搭建（）运行环境。

a.Java

B.C++

C.Python

D.C#

回答正确

解析:

无

3单选配置Hertrix的爬取设置是在（）模块。

a.Logs

B.Help

C.Profiles

D.Reports

回答正确

解析:

无

4单选配置了Hertrix爬取设置后，在（）模块可以新建任务并运行。

a.Logs

B.Jobs

C.Reports

D.Setup

回答正确

解析:

无

5单选使用Hertrix爬取网页时建议使用（）模式。

a.Mirror

B.KW3

C.aRC

D.TXT

回答正确

解析:

无

6单选网站一般在（）文件中描述被爬取的规则。

a.License.txt

B.robots.txt

C.ReadMe.txt

D.hentrix.txt

回答正确

解析:

无

7单选（）是Hadoop的前身，是一种分布式爬虫工具，更适合集群爬取。

a.Crawler

B.Jsoup

C.Hertrix

D.Nutch

回答正确

解析:

无

8单选以下哪种说法是正确的（）

a.Hertrix爬取过程中进度会自动刷新

B.在Hertrix中建立了爬取任务后会自动开始

C.Hertrix是不可扩展的

D.可通过修改配置文件更改使用时的用户名和密码

回答正确

HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

选择一项：

a.WWW-authenticate

b.Connection

c.Refresh

d.Location

正确本题标准答案是是：

Refresh

通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

我们称这个客户端叫（）。

选择一项：

a.源服务器

b.用户代理

c.播放器

d.数据库

正确本题标准答案是是：

用户代理

（）爬行过程中最重要部分就是表单填写及处理。

选择一项：

a.深层网络爬虫

b.增量式网络爬虫

c.通用网络爬虫

d.聚焦网络爬虫

正确本题标准答案是是：

深层网络爬虫

以下哪个HTTP响应状态表示服务器端错误（）

选择一项：

a.300

b.403

c.200

d.500

正确本题标准答案是是：

500

在HTTP响应信息中，若状态信息码是404则表示（）。

选择一项：

a.没有找到请求的页面

b.所请求的页面已经转移至新的url

c.登录失败

d.访问被禁止

正确本题标准答案是是：

没有找到请求的页面

在HTP响应信息中，若状态信息码是200则表示（）。

选择一项：

a.登录失败

b.请求成功

c.访问被禁止

d.所请求的页面已经转移至新的url

正确本题标准答案是是：

请求成功

HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

选择一项：

a.GET

b.POST

c.PUT

d.TRaCE

正确本题标准答案是是：

POST

HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

选择一项：

a.Host

b.User-agent

c.Referer

d.Cookie

正确本题标准答案是是：

User-agent

（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

选择一项：

a.深度优先策略

b.随机爬行策略

c.PageRank优先策略

d.广度优先策略

正确本题标准答案是是：

深度优先策略

以下不属于HTTP协议的主要特点的是（）。

选择一项：

a.支持基本认证和安全认证

b.有状态

c.简单快速

d.支持客户/服务器模式

正确本题标准答案是是：

有状态

如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

选择一项：

a.向管理员请求用户名和密码

b.再次核对请求的页面地址是否正确

c.检查浏览器权限

d.向网管报障

正确本题标准答案是是：

再次核对请求的页面地址是否正确

以下哪个不属于HTTP请求信息（）。

选择一项：

a.accept-Language

b.Connection

c.Expires

d.User-agent

正确本题标准答案是是：

Expires

追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些"杂乱”的"脏”数据，就涉及到（）技术。

选择一项：

a.数据预测

b.数据清洗

c.数据采集

d.数据统计

正确本题标准答案是是：

数据清洗

（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

选择一项：

a.聚焦网络爬虫

b.增量式网络爬虫

c.深层网络爬虫

d.通用网络爬虫

正确本题标准

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 10293 数据采集与管理数据采集管理

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：10293 数据采集与管理.docx
链接地址：https://www.bdocx.com/doc/2840510.html

10293 数据采集与管理.docx

热门标签