HCNABigData培训教材V20课后习题及答案Word格式文档下载.docx
- 文档编号:19948651
- 上传时间:2023-01-12
- 格式:DOCX
- 页数:15
- 大小:2.50MB
HCNABigData培训教材V20课后习题及答案Word格式文档下载.docx
《HCNABigData培训教材V20课后习题及答案Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《HCNABigData培训教材V20课后习题及答案Word格式文档下载.docx(15页珍藏版)》请在冰豆网上搜索。
2.HDFS包含哪些角色?
Client、NameNode、Datanodes
3.请简述HDFS的读写流程。
写的时候写了三副本
读的时候只读了一次
MapReduce和YARN技术原理
1.请简述MapReduce的工作原理。
总结:
MapReduce阶段分为Map阶段和Reduce阶段
Map阶段分为1.分区2.排序3.组合4.合并四个过程
Map阶段的输出结果就是Reduce阶段的输入。
Map阶段输出的中间结果存在磁盘当中(先放在环形缓冲区当中,缓冲区满了刷入磁盘中)。
Reduce从磁盘中读出中间数据进行下一步计算。
Reduce阶段分为1.copy2.Merge3.Reduce三个过程
2.请简述YARN的工作原理
总结(八步):
1.应用提交到RecourseManager上
2.RecourseManager为该应用分配第一个container并且与这个container所对应的NodeManager通信,要求它在这个container中启动应用程序的ApplicationMaster(也就是选举出一个AppMaster)
3.ApplicationMaster首先向RecourseManager进行注册,这样用户可以通过RecourseManager查看程序的运行程序的运行状态
4.AppMaster为它所要进行的任务申请资源,并且监控分配给他的这些container的运行状态。
5.ApplicationMaster申请到资源后,与对应的NodeManager通信,要求它启动任务。
6.NodeManager为任务设置好运行环境,后将任务启动命令写到一个脚本中,通过运行该脚本启动任务
7.各个container通过rpc协议向ApplicationMaster汇报自己状态和进度,让ApplicationMaster随时掌握任务的运行进度和状态,从而可以在任务运行失败时重启该任务。
(用户可以通过rpc协议向ApplicationMaster查询应用程序运行的当前状态)
8.应用程序运行完后,ApplicationMaster向RecourseManager注销并关闭自己。
ABD
C
B
ABCD
Spark2x技术原理
1.Spark的特点有哪些?
2.Spark相对于MR的优势是什么?
Spark比MapReduce的计算速率要快
3.Spark宽依赖窄依赖的区别是什么?
窄依赖:
RDD的每个分区仅依赖一个父RDD的分区;
宽依赖:
RDD的每个分区依赖多个父RDD的分区;
4.Spark的应用场景有哪些?
1.TransformationAction
2.RDD
3.宽依赖窄依赖
HBase技术原理
1.HBase的Region在split时可以提供服务吗?
被分裂的region会暂停读写服务,其他region正常
2.HBase的Regionsplit有何好处?
负载均衡。
A
Hive技术原理
BCD
D
Streaming技术原理
Streaming是如何保障消息可靠性?
通过设置Ack保障可靠性
Flink技术原理
1.Flink的特点有哪些?
2.Flink的常用窗口类型有哪些?
TumblingWindows
SlidingWindows
SessionWindows
Loader技术原理
F
AB
Flume技术原理
1.Flume是什么,可以用来干什么?
2.Flume有哪些关键特性?
Flunme支持级联,可以对数据进行简单的清洗,它有很好的传输数据的可靠性,在不同Flume之间传输数据的时候支持压缩和加密,保证传输的速率和可靠性。
3.Source/Channel/Sink分别有什么作用?
Source用来采集数据
Channel用来缓存数据
Sink用来把数据放到目的地
T
Kafka技术原理
ABC
1.Kafka是如何保证数据可靠的?
2.通过kafka客户端提供的Shell命令可以对Topic进行哪些操作?
Createdeletelistdescribe等操作
ZooKeeper集群分布式协调服务
1.ZooKeeper在集群中的位置及作用是什么?
它是FusionInsightHD的底层组件
提供分布式、高可用性的协调服务能力
2.ZooKeeper为什么建议奇数部署?
因为奇数部署和偶数部署的容灾能力一样
偶数部署时,成为leader的节点需要获得更多的票数。
3.ZooKeeper一致性的含义是什么?
FusionInsightHD解决方案介绍
1.FusionInsightHD有哪些特性?
1.系统可靠性,数据可靠性
2.安全性
3.网络安全可靠---双平面组网
4.可视化集群管理,运维便捷
5.图形化的健康巡检工具
6.易开发
2.Hive/HBase细粒度加密支持哪些加密算法?
3.HDFS中存海量小文件会给NameNode带来极大的压力;
HBase存海量小文件,Compacion会带来IO资源浪费。
针对这种现象时有什么技术解决?
HFS方案
4.日志级别调整有哪些级别?
TRACEDEBUGINFOWARNERROROFF
最后一章关注问题与解决方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HCNABigData 培训教材 V20 课后 习题 答案