大数据基础题库带答案Word文件下载.docx
- 文档编号:21059404
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:16
- 大小:20.89KB
大数据基础题库带答案Word文件下载.docx
《大数据基础题库带答案Word文件下载.docx》由会员分享,可在线阅读,更多相关《大数据基础题库带答案Word文件下载.docx(16页珍藏版)》请在冰豆网上搜索。
16、MapReduce应用程序一定要用Java来编写。
17、MapReduce是一种编程模型,用于处理大规模数据集的并行运算。
18、MapReduce执行计算任务的时候,没个任务的执行过程都被划分为()阶段
A、Map
B、Reduce
C、Result
D、KeyValue
AB
19、MapReduce的工作过程包括()
A、分片、格式化数据源
B、执行MapTask
C、执行Shuffle过程
D、执行ReduceTask
E、写入文件
ABCDE
20、查看当前节点的ZooKeeper角色的命令是()
A、zkServer.shstatus
B、zkServer.shstart
C、zkServer.shstop
D、zkServer.shformat
21、ZooKeeper默认的两种角色是()
A、Leader
B、Follower
C、Observer
D、Master
22、无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的。
23、Znode有两种节点,分别是永久节点和临时节点。
24、Zookeeper引入Watch机制实现分布式的通知功能。
25、Zookeeper的JavaAPI操作中,setData方法用于更新数据。
26、Zookeeper的JavaAPI操作中,getData方法可以查询数据。
27、Zookeeper的Shell操作中使用delete命令删除节点时,要删除的节点存在子节点的话也可以删除该节点。
28、Zookeeper的Shell操作中,删除节点的方法是用rm命令。
29、在Zookeeper的Shell操作中,查看节点可以用lspath[watch]或getpath[watch]
或ls2path[watch]方法。
30、在Zookeeper的Shell操作中,rmrpath命令可以递归删除节点。
31、Hive是建立在Hadoop文件系统上的一个数据仓库。
32、Hive系统架构的组成主要包括()
A、用户接口
B、跨语言服务
C、底层驱动引擎
D、元数据存储系统
ABCD
33、Hive中所有的数据都存储在()中。
A、HBase
B、Mysql
C、Yarn
D、HDFS
D
34、Hive的安装模式有()
A、内嵌模式
B、本地模式
C、远程模式
D、网格模式
ABC
35、Hive是一个独立的数据仓库工具,因此在启动前无需启动任何服务。
36、Hive和Mysql都有String数据类型。
解析:
Hive有String数据类型,Mysql没有。
37、Hive支持Map键值对的复杂数据类型。
38、Hive中显示数据库用的命令是showdatabases;
39、Hive中切换数据库用的命令是USE+数据库名。
40、Hive中的桶为表提供了额外的结构,Hive在处理某些查询时利用这个结构,能够有效地提高查询效率。
41、在Flume系统种,在一个Agent中,同一个source可以有多个channel。
42、在Flume系统中,在一个Agent中,同一个sink可以有多个channel。
43、在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。
44、Flume的核心是把数据从数据源通过Source收集过来,再将收集的数据通过Channel汇集到指定的Sink。
45、Flume的负载均衡接收器处理器支持使用轮询、随机机制进行流量分配。
46、FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。
47、一、目前有一个集群,集群中有三台计算机,分别是hadoop01、hadoop02、hadoop03,都已经装好了Linux操作系统,三台计算机需要完成以下,请按照以下步骤完成操作(操作步骤写出命令,并截图;
不具备环境的同学简述操作步骤):
1.SSH远程登录功能配置
(1)安装并开启SSH服务
(2)创建CRT工具连接三台服务器,这里也可以使用其他的连接工具,如xshell,基本原理都一样
2.三台机器免密登录
(1)三台机器执行以下命令,生成公钥与私钥
(2)拷贝公钥到同一台主机(这里都拷贝到hadoop01)
(3)复制第一台机器的认证到其他机器
3.安装JDK
上传jdk到/export/software路径下去,并解压
(1)安装lrzsz
(2)上传jdk
(3)解压并重命名
4.配置JDK环境变量
5.JDK环境验证
6.解压安装Hadoop
上传hadoop-2.7.4.tar.gz包到/export/software目录下,并解压
7.配置Hadoop系统环境变量
8.Hadoop环境验证
48、二、请完成以下HDFSShell的相关操作,写出操作命令。
1.查看hdfs命令:
2.查看相应命令的使用方法:
3.创建文件夹:
4.查看hdfs文件(夹)列表:
5.上传文件到hdfs:
6.查看文件内容
7.下载hdfs上的文件:
8.删除hdfs上的文件:
9.复制hdfs上的文件:
10.剪切hdfs上的文件:
11.显示目录中所有文件的大小
12.创建一个0字节的空文件
49、
三、请在Hadoop集群中完成以下Zookeep的操作,写出相应的命令:
1.显示所有操作命令
2.查看当前Zookeeper中所包含的内容
3.查看当前节点数据
4.创建节点
创建序列化永久节点
创建临时节点
创建永久节点
5.获取节点
6.修改节点
7.监听节点
8.删除节点
普通删除的命令
递归删除的命令
50、当前大数据技术的基础是由()首先提出的。
A、微软
B、XX
C、谷歌
D、阿里巴巴
C
51、大数据的起源是()
A、金融
B、电信
C、互联网
D、公共管理
52、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。
A、数据管理人员
B、数据分析员
C、研究科学家
D、软件开发工程师
53、()反映数据的精细化程度,越细化的数据,价值越高。
A、规模
B、活性
C、关联度
D、颗粒度
54、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的()。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
55、下列关于大数据的说法中,错误的是()。
A、大数据具有体量大、结构单一、时效性强的特征
B、处理大数据需采用新型计算架构和智能算法等新技术
C、大数据的应用注重相关分析而不是因果分析
D、大数据的应用注重因果分析而不是相关分析
E、大数据的目的在于发现新的知识与洞察并进行科学决策
AD
56、大数据的价值体现在()
A、大数据给思维方式带来了冲击
B、大数据为政策制定提供科学论据
C、大数据助力智慧城市提升公共服务水平
D、大数据实现了精准营销
E、大数据的发力点在于预测
57、当前大数据技术的基础包括()
A、分布式文件系统
B、分布式并行计算
C、关系型数据库
D、分布式数据库
ABD
58、Hadoop是Java开发的,所以MapReduce只支持Java语言编写。
hadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想,可以使用其他语言开发。
59、Hadoop支持数据的随机读写。
lucene是支持随机读写的,而hdfs只支持随机读。
但是HBase可以来补救。
HBase提供随机读写,来解决Hadoop不能处理的问题。
HBase自底层设计开始即聚焦于各种可伸缩性问题:
表可以很“高”,有数十亿个数据行;
也可以很“宽”,有数百万个列;
水平分区并在上千个普通商用机节点上自动复制。
表的模式是物理存储的直接反映,使系统有可能提高高效的数据结构的序列化、存储和检索。
60、配置JDK环境变量时,需要对下列哪个文件进行修改()
A、hadoop-env.sh
B、core-site.xml
C、hdfs-site.xml
D、profile
61、下面选项中哪一项可以单独启动namenode进程命令()
A、hadoop-daemon.shstartnamenode
B、hadoop-daemon.shnamenodestart
C、start
namenode
hadoop-daemon.sh
D、starthadoop-daemon.sh
namenode
62、以下对Hadoop主要配置文件描述正确的是()
A、core-site.xml:
Hadoop核心全局配置文件,可在其他配置文件中引用该文件。
B、hdfs-site.xml:
HDFS配置文件,继承core-site.xml配置文件。
C、mapred-site.xml:
MapReduce配置文件,继承core-site.xml配置文件。
D、以上都正确
63、启动Hadoop集群,要启动内部的集群框架是下列的哪个选项()
A、Hadoop集群和HDFS集群框架
B、YARN集群和MapReduce集群框架
C、HDFS集群和YARN集群框架
D、HDFS集群和MapReduce集群框架
64、在下列哪个配置文件中可以修改数据块的副本数量()
A、core-site.xml
B、hdfs-site.xml
C、slaves
D、hadoop-env.sh
65、Hadoop集群启动完成后,通过jps指令查看各节点的服务进程,主节点上一定会存在下列哪个进程()
A、NodeManager
B、NameNode
C、DataNode
D、SecondaryNameNode
66、VMware提供两种类型的克隆,正确的是下列哪项()
A、完全克隆和不完全克隆
B、链接克隆和非链接克隆
C、完全克隆和链接克隆
D、链接克隆和不完全克隆
67、Hadoop集群的计算资源是由以下哪一项进行管理()
A、NameNode
B、DataNode
C、ResourceManager
D、NodeManager
68、下列关于主节点的格式化处理说法错误的是()
A、初次启动HDFS集群时,必须对主节点进行格式化处理
B、每次启动HDFS集群,都必须对主节点进行格式化处理
C、初次启动HDFS时,不一定要对主节点进行格式化处理
D、什么时候主节点都不需要进行格式化处理
BCD
69、Hadoop集群的部署环境有下列哪些()
A、单机版环境
B、伪分布式环境
C、完全分布式环境
D、以上都不是
70、下面哪个选项负责HDFS数据存储()。
C、SecondaryNameNode
71、HDfS中的block默认保存几份()
A、1份
B、2份
C、3份
D、不确定
72、将Windows中的文件上传到HDFS目录下,会涉及到本地计算机(Windows)上的文件系统、集群服务器节点(Linux)上的文件系统以及HDFS文件系统。
73、将Windows中的文件上传到HDFS目录下,会涉及到下列哪些文件系统()
A、本地计算机(Windows)上的文件系统
B、集群服务器节点(Linux)上的文件系统
C、HDFS文件系统
D、不需要文件系统
74、hadoopfs-chmod777命令的作用是改变文件所属组。
75、maven是专门用于构建和管理Java相关项目的工具,有一个pom.xml用于维护当前项目都用了哪些jar包。
76、MapReduce中Map过程输出的键值对,将有下列哪个组件()进行合并处理。
A、Mapper
B、InputFormat
C、Reducer
D、OutputFormat
77、Combiner组件的作用是对Map阶段输出的重复数据先做一次合并计算,再把新的(key,value)作为Reduce阶段的输入。
78、自定义Combiner时,不需要继承Reduce类。
自定义Combiner时,需要继承Reduce类,并且重写reduce()方法。
79、MapReduce性能优化策略可以从下列哪些方面进行()
A、数据输入
B、Map阶段
C、Reduce阶段
D、Shuffle阶段
80、Hive属于Hadoop生态圈。
81、Hive的分区操作关键字是下列哪项()
A、Groupby
B、Join
C、Partition
D、Union
82、下列哪些属于Hive数据模型()
A、数据表
B、分区表
C、桶表
D、视图表
83、Hive创建桶表关键字是clusteredby,Hive默认分桶数量是0。
Hive创建桶表关键字是clusteredby,Hive默认分桶数量是-1。
84、Flume的三个核心组件是()
A、Flower
B、Source
C、Channel
D、Sink
85、下列选项中,Flume的()组件用于源数据的采集。
A、Source
B、Channel
C、Sink
D、Watch
86、Flume不属于Hadoop生态圈。
87、Flume的负载均衡接收器处理器流量分配默认选择机制为轮询。
88、在实际业务中,sqoop不能实现对部分数据的导入操作。
89、Sqoop是独立的数据迁移工具,可以在任何系统上执行。
90、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。
91、import和export属于sqoop指令。
92、sqoop从Hive表导出MySQL表时,首先需要在MySQL中创建表结构。
93、Sqoop是关系型数据库与Hadoop之间的数据桥梁,这个桥梁的重要组件是Sqoop连接器。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基础 题库 答案