《大数据技术原理与操作应用》第8章习题答案.docx
- 文档编号:9082427
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:11
- 大小:18.54KB
《大数据技术原理与操作应用》第8章习题答案.docx
《《大数据技术原理与操作应用》第8章习题答案.docx》由会员分享,可在线阅读,更多相关《《大数据技术原理与操作应用》第8章习题答案.docx(11页珍藏版)》请在冰豆网上搜索。
《大数据技术原理与操作应用》第8章习题答案
第八章
一、单选题
1.当服务器突然宕机,下列Channels选项中,哪一个可以保证数据不会丢失。
A、MemoryChannel
B、FileChannel
C、JDBCChannel
D、KafkaChannel
参考答案:
B
2.、以下关于flume的说法正确的是
AEvent是Flume数据传输的基本单元
BSink是Flume数据传输的基本单元
CChannel是Flume数据传输的基本单元
DSource是Flume数据传输的基本单元
参考答案:
A
二、多选题
1、下列选项中,说法错误的是()。
∙A、在一个Agent中,同一个source可以有多个channel
∙B、在一个Agent中,同一个sink可以有多个channel
∙C、在一个Agent中,同一个source只能多1个channel
∙D、在一个Agent中,同一个sink只能有1个channel
参考答案:
A,D
2、下列说法中,关于配置参数说法错误的是()。
∙A、a1.sources.r1.channels=c1
∙B、a1.sinks.k1.channel=c1
∙C、a1.source.r1.channels=c1
∙D、a1.sinks.k1.channels=c1
参考答案:
C,D
三、判断题
1、在一个POST请求发送的所有的events数据,可以在多个事务中插入channel。
∙对
∙错
参考答案:
错
答案解析:
在一个POST请求发送的所有的events都被认为是一个批次,会在一个事务中插入channel。
2、Flume负载均衡接收器处理器能够在多个Sink上进行均衡流量的功能。
∙对
∙错
参考答案:
对
3、查询和替换拦截器基于Java正则表达式提供了简单的用于字符串的搜索和替换功能,同时还具有进行回溯/群组捕捉功能。
∙对
∙错
参考答案:
对
4、采集方案中的sources、channels、sinks是在具体编写时根据业务需求进行配置的,可以随意设置。
∙对
∙错
参考答案:
错
5、SpoolingDirectorySource对指定磁盘上的文件目录进行监控并提取数据,但是不能查看新增文件数据。
∙对
∙错
参考答案:
错
答案解析:
SpoolingDirectorySource对指定磁盘上的文件目录进行监控并提取数据,可以查看新增文件数据。
6、FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。
∙对
∙错
参考答案:
对
答案解析:
FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。
7、Channel组件对采集到的数据进行缓存,可以存放在Memory或File中。
∙对
∙错
参考答案:
对
答案解析:
Channel组件对采集到的数据进行缓存,可以存放在Memory或File中。
8、在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。
∙对
∙错
参考答案:
对
答案解析:
在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。
9、Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec等。
∙对
∙错
参考答案:
对
10、TimestampInterceptor能够过滤掉数据中的时间戳。
∙对
∙错
参考答案:
错
答案解析:
TimestampInterceptor(时间戳拦截器)会将流程执行的时间插入到event的header头部。
此拦截器插入带有timestamp键(或由header属性指定键名)的标头,其值为对应时间戳。
如果配置中已存在时间戳时,此拦截器可以保留现有的时间戳。
11、StaticInterceptor(静态拦截器)允许用户将具有静态值的静态头附加到所有event。
∙对
∙错
参考答案:
对
12、TaildirSource用于观察指定的文件,可以实时监测到添加到每个文件的新行,如果文件正在写入新行,则此采集器将重试采集它们以等待写入完成。
∙对
∙错
参考答案:
对
答案解析:
TaildirSource用于观察指定的文件,可以实时监测到添加到每个文件的新行,如果文件正在写入新行,则此采集器将重试采集它们以等待写入完成。
13、LoggerSink通常用于调试,LoggerSink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。
∙对
∙错
参考答案:
对
答案解析:
LoggerSink通常用于调试,LoggerSink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。
14、关于静态拦截器,用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。
∙对
∙错
参考答案:
对
答案解析:
关于静态拦截器,用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。
15、Flume-og与Flume-ng两个版本基本相同,开发者可以使用任意一款工具。
∙对
∙错
参考答案:
错
16、禁用backoff功能的情况下,在round_robin机制下,所有失败的sink将被传递到sink队列中的下一个sink后,因此不再均衡。
∙对
∙错
参考答案:
对
17、HDFSSink将event写入Hadoop分布式文件系统(HDFS),它目前支持创建文本和序列文件,以及两种类型的压缩文件。
∙对
∙错
参考答案:
对
18、AvroSource用来监听Avro端口并从外部Avro客户端流中接收event数据,当与另一个FlumeAgent上的AvroSink配对时,它可以创建分层集合拓扑,利用AvroSource可以实现多级流动、扇出流、扇入流等效果。
∙对
∙错
参考答案:
对
19、一个完整的event包含headers和body,其中body中包含了数据标识信息。
∙对
∙错
参考答案:
错
20、Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。
∙对
∙错
参考答案:
对
答案解析:
Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。
21、设计Flume采集系统架构时,Sink组件数据可以流向一个新的Agent的Source组件。
∙对
∙错
参考答案:
对
答案解析:
设计Flume采集系统架构时,Sink组件数据可以流向一个新的Agent的Source组件。
22、HTTPSource可以通过HTTPPOST和GET请求方式接收event数据。
∙对
∙错
参考答案:
对
23、processor.backoff属性默认值为true,表示sink处理器会将失败的sink列入黑名单。
∙对
∙错
参考答案:
错
答案解析:
processor.backoff属性默认值为false
24、Sink组件是用于把数据发送到目的地的组件,目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。
∙对
∙错
参考答案:
对
25、Flume采集方案的名称、位置、以及sources、channels、sinks参数配置信息可以任意定义。
∙对
∙错
参考答案:
错
四、填空题
1、Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。
参考答案:
【缓冲通道(Channel)】
2、Flume采用三层架构,分别为agent、【】、storage,每一层均可以水平扩展。
参考答案:
【collector】
答案解析:
Flume采用三层架构,分别为agent、collector、storage,每一层均可以水平扩展。
3、解压Flume后,需要在【】配置文件中添加JDK环境变量参数。
参考答案:
【flume-env.sh】
4、Flume的负载均衡接收器处理器支持使用【】、random(随机)机制进行流量分配,其默认选择机制为【】。
参考答案:
【round_robin(轮询)】【round_robin】
5、Flume分为两个版本,分别是Flume-og、【】。
参考答案:
【Flume-ng】
答案解析:
Flume分为两个版本,分别是Flume-og和Flume-ng。
6、要想使用Flume系统,需要在当前操作系统中安装【】环境变量。
参考答案:
【JDK】
答案解析:
暂无解析
7、Flume的负载均衡接收器处理器支持使用【】、random(随机)机制进行流量分配。
参考答案:
【round_robin(轮询)】
8、FileChannel的配置属性,必备参数为【】、checkpointDir和useDualCheckpoints。
参考答案:
【type】
9、Flume是Cloudera提供的一个【】、可靠、和【】的海量日志采集、聚合和传输的系统。
参考答案:
【分布式】【高可用】
答案解析:
Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
10、FailoverSinkProcessor配置属性必备的参数是【】、processor.type和processor.priority.
参考答案:
【sinks】
五、简答题
1、简述故障转移接收器处理器的工作原理。
参考答案:
将故障的sink降级到故障池中,在池中为它们分配一个冷却期,在重试之前冷却时间会增加,当sink成功发送event后,它将恢复到活跃池中。
sink具有与之相关的优先级,数值越大,优先级越高。
如果在发送event时sink发生故障,则会尝试下一个具有最高优先级的sink来继续发送event。
如果未指定优先级,则根据配置文件中指定sink的顺序确定优先级。
2、简述tail-F与-f的区别。
参考答案:
小f根据文件描述符进行追踪,当文件改名或被删除,追踪结束,-F按照文件名进行追踪,并保持重试,即文件被删除或改名后,如果创建相同的文件名,则继续追踪。
3、简述Flume负载均衡接收器处理器和故障转移接收器处理器的区别。
参考答案:
负载均衡接收器处理器中会让每一个活跃的sink轮流/随机的处理event;而故障转移接收器处理器只允许一个活跃的且优先级高的sink来处理event,只有在当前sink故障后才会向下继续选择另一个活跃的且优先级高的sink来处理event。
4、Flume采集数据会丢失吗?
参考答案:
不会,Channel中的数据可以存储在File中,数据传输自身有事务。
5、什么是Flume拦截器。
参考答案:
FlumeInterceptors(拦截器)主要用于实现对Flume系统数据流中event的操作。
6、简述flume-ngagent的作用。
参考答案:
表示使用flume-ng启动一个agent
7、编写一个采集类型是netcat的采集方案。
参考答案:
a1.sources=r1
a1.sinks=k1
a1.channels=c1
a1.sources.r1.type=netcat
a1.sources.r1.bind=localhost
a1.sources.r1.port=44444
a1.sinks.k1.type=logger
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1
8、编写收集/root/logs/access.log文件的配置参数。
参考答案:
mand=tail-F/root/logs/access.log
9、选择Channel类型时,分别说明memory、和file的优缺点。
参考答案:
选择MemoryChannel时Channel的性能最好,但是如果Flume进程意外挂掉可能会丢失数据。
当选择FileChannel时Channel的容错性更好,Channel性能相比MemoryChannel较低。
10、简述MemoryChannel特点。
参考答案:
读写速度快,但是存储数据量小,Flume进程挂掉、服务器停机或者重启都会导致数据丢失。
资源充足、不关心数据丢失的场景下可以用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术原理与操作应用 数据 技术 原理 操作 应用 习题 答案