完整版hadoop习题册.docx
- 文档编号:511435
- 上传时间:2022-10-10
- 格式:DOCX
- 页数:17
- 大小:70.80KB
完整版hadoop习题册.docx
《完整版hadoop习题册.docx》由会员分享,可在线阅读,更多相关《完整版hadoop习题册.docx(17页珍藏版)》请在冰豆网上搜索。
完整版hadoop习题册
第一章大数据概述
1.互联网的发展分为个阶段。
A.—B.三C二D.四
2.下列不属于大数据特点的是()。
A.
D.价值密度高
种类和来源多样化B.数据量巨大C.分析处理速度快
3.互联网发展的第个时代为智能互联网。
A.3.0B.4.0C.1.0D.2.0
4.关于大数据叙述不正确的一项是()。
A.大数据=“海量数据”+“复杂类型的数据”
B.大数据是指在一定时间对内容抓取、管理和处理的数据集合
C.大数据可以及时有效的分析海量的数据
D.数据包括结构化数据、半结构化数据、结构化数据。
5.下列数据换算正确的一项为()。
A.1YB=1024EB
B.1TB=1024MB
C.1PB==1024EB
D.1024ZB=1EB
6.结构化数据的表现形式为。
A.文本B.视图C二维表D.查询
7.结构化的数据,先有,再有.
A.数据结构
B.结构数据
C内容结构
D结构内容
8.结构化的数据,先有,再有.
A.数据结构
B.结构数据
C内容结构
D结构内容
9.软件是大数据的。
A.核心B部件C引擎
D集合
10.大数据技术不包括(
)。
A.数据计算B.数据存储
C数据冗余
D.数据采集
11.大数据的特点不包括(
)。
A.数量大B.类型少
C速度快
D.价值高
第二章
Hadoop简介
1.下列对云栈架构层数不正确的一项为
A.三层云栈架构
B.四层云栈架构
C五层云栈架构
D.六层云栈架构
2.下列不是云计算三层架构的概括。
A.IaaSB.PaaSC.SaaPD.SaaS
3.IaaS基础设施及服务可以称为。
A.弹性计算
B.效用计算
C有效计算
D.随需应用
4.四层云栈模式,
是将三层模式中的
进行分解,分为两层,一层为硬件层,一层
为虚拟资源层。
A.硬件部分
B虚拟化部分
C基础设施
D.平台
5.五层云栈模式,
第五层为。
A.固件/硬件层B.云基本资源层C云应用程序层D.云软件环境层
6.大数据是的应用。
A.人工智能B云计算C物联网D.互联网
7.hadoop中第一阶段的输出可以作为下一阶段的输入。
A.应用场景B•分布式计算C•分阶段计算D•高效处理
8..hadoop中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并
到输出。
A.应用场景B分布式计算C分阶段计算D•高效处理
9.下列选项中不是hadoop特点的是。
A.可靠性B.扩容能力C.高效率D.成本高
10.hadoop能可靠地存储和处理字节数据。
A.TBB.PBC.YBD.ZB
11.hadoop集群可以用___种模式进行。
A.四B.三C五D.二
12.hadoop集群不可以在进行。
A.联机模式B単机模式C虚拟分布模式D.完全分布模式
13.模式:
hadoop安装时的默认模式,不对配置文件进行修改。
A.联机B.单机C虚拟分布D.完全分布
14.模式:
在一台机器上用软件模拟多节点集群。
A.联机B.单机C虚拟分布D.完全分布
15.模式:
Hadoop安装运行在多台主机上,构成一个真实的hadoop集群,在所有
的节点上都安装JDK和hadoop,相互通过高速局域网连接。
A.联机B.单机C虚拟分布D.完全分布
16.完全分布式,各节点之间设置,将各个从节点生成的公钥添加到主节点的信任
列表。
A.SSHB.JDKC.hadoopD.HDFS
17.完全分布式,不需要修改的配置文件为。
A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.shD.mapred-site.xml
18.HDFS架构中有两个。
A.DataNodesB.JobTrackeC.NameNodeD.SecondayNameNode
19.下列不是hadoop核心组件的是。
A.JobTrackerB.TaskTrackerC.HDFSD.Hbase
20.存储Hadoop集群中所有存储节点上的文件,为海量提供存储。
A.JobTrackerB.TaskTrackerC.HDFSD.HBase
第四章HDFS文件系统
1.是指跨多台计算或服务器的文件或文件夹,数据存储在多台机器而不是单台
机器上。
A.分布式存储B.分页式存储C.链式存储D.顺序存储
2.下列关于hadoop系统架构叙述不正确的一项为。
A.由一台Intelx86处理器的服务器或PC机组成。
B.部署在低成本Intel/linux硬件平台上。
C通过高速局域网构成一个计算集群。
D.各个节点上运行Linux操作系统。
3.主节点程序。
A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker
4.从节点程序。
A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker
5.
HDFS结构不包括。
A.Master体系结构
6.HDFS分布式文件系统的特点为。
A.半透明性B低可用性C.可扩展性
7.HDFS中的block默认保存份。
A.3B.2C.1D.不确定
8.下列通常与NameNode在一个节点启动。
A.SecondaryNameNode
B.DataNode
C.TaskTracker
D.Jobtracker
9.HDFS每个文件被划分成大小的多个block,属于同一个文件的blocks分散存储在不
同DataNode上。
A.32MB
B.64MB
C.128MB
D.无法确定
10.下面哪个程序负责HDFS数据存储?
()
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode
E.tasktracker
11.NameNode是HDFS系统中的管理局节点,它管理文件系统的命名空间,记录每个文件数
据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。
A.错误B正确
12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠行、
高扩展性、高吞吐率等特征,适合的读写任务是。
A.一次写入,少次读取
B.多次写入,少次读取
C多次写入,多次读取
D.—次写入,多次读取
13.关于HDFS的文件写入,正确的是。
A•支持多用户对同一文件的写操作
B.用户可以在文件任意位置进行修改
C默认将文件复制成三份存放
D.复制的文件块默认存在同一机架上
14.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分
datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入
到每一个DataNode块
A.Client
B.Namenode
C.Datanode
D.Secondarynamenode
15.HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A.
B.
C.
D.
利用SequenceFile、MapFile、Har等方式归档小文件多Master设计
Block大小适当调小
调大namenode内存或将文件系统元数据存到硬盘里
16.在HDFS的数据读取过程中,客服端首先调用
件。
的实例的
open()方法打开一个文
A.DistributedFileSystem
17.在HDFS的数据读取过程中,对象实例返回给客户端。
B.FileSystemC.FSDataOutputSystem
DistributedFileSystem获取这些信息后,
D.OutputSystem
生成一个
的close()接
A.DistributedFileSystem
C.FSDataOutputSystem
18.在HDFS的数据读取过程中,口关闭这个文件。
B.FSDataInputSystem
D.lnputSystem
客户端读取完所有数据块后,调用
A.DistributedFileSystem
C.FSDataOutputSystem
19.在HDFS的数据写入过程中,客服端首先调用件。
B.FSDataInputSystem
D.lnputSystem
的实例的create()方法打开一个文
A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem
20.在HDFS的数据写入过程中,客户端写完所有数据块后,调用的close()方法
结束这次文件写入操作。
A.DistributedFileSystem
C.FSDataOutputSystem
21.HDFS的错误检测不包括
B.FSDataInputSystem
D.lnputSystem
第五章MapReduce原理与编程
1.MapReduce应用于的数据处理。
A.小规模B.中小规模C.大规模D.超大规模
2.MapReduce能处理的海量数据大于。
A.1TBB.10GBC.10TBD.1PB
3.下列关于MapReduce说法不正确的是。
A.MapReduce是一种计算框架
B.MapReduce的核心思想是“分而治之”
C.MapReduce是一个串行的编程模型
D.MapReduce来源于Google的学术论文
4.下列关于MapReduce的特性叙述正确的一项是。
A.自动实现分布式串行计算
B.自动实现分页式并行计算
C容错,提供状态监控工具
D.不容错,提供状态监控工具
5.在分布式并行计算体系中,采用一个指令流处理单个数据流。
A.SISDB.SIMDC.MISDD.MIMD
6.在分布式并行计算体系中,采用多个指令流同时处理多个数据流。
A.SISDB.SIMDC.MISDD.MIMD
7.关于集群的特点下列叙述正确的一项是。
A.系统吞吐量小B.可靠性高C扩展性弱D.性价比低
8.下列关于MapReduce的基本思想叙述不正确的一项是。
A.对相互间具有计算机以来关系的大数据进行分而治之。
B.用Map和Reduce两个函数提供了高层并行编程抽象模型。
C提供了同一框架
D.为程序员隐藏系统细节
9.下列关于MPI叙述不正确的一项是。
A.MPI是一个信息传递应用程序的接口
B.MPI程序经常在共享内存的机器上使用
C.MPI并行计算增加高层并行编程模型
D.MPI缺少统一的计算框架支持
10.下列关于MapReduce计算原理叙述不正确的一项是。
A.将大数据集划分为小数据集,小数据集划分为更小数据集
B.将最终划分的小数据分发布到集群节点上
C.以串行的方式完成计算处理
D.将计算结果递归融汇,得到最后的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 hadoop 习题