数据工程师培训题库.docx
- 文档编号:11522308
- 上传时间:2023-03-02
- 格式:DOCX
- 页数:8
- 大小:85.98KB
数据工程师培训题库.docx
《数据工程师培训题库.docx》由会员分享,可在线阅读,更多相关《数据工程师培训题库.docx(8页珍藏版)》请在冰豆网上搜索。
数据工程师培训题库
1、当前用户提交了一个wordcount词频统计的任务,最后任务执行失败,可能的原因有哪些()
A.当前集群中没有足够的资源,不足以满足当前wordcount任务的需求
B.执行该任务的用户没有权限访问HDFS上的数据文件
C.用户在执行任务之前在HDFS相应的目录下创建了提交任务时指定的输出目录
D.以上原因都有可能
2、以下关于外表和托管表描述正确的是()
A、外表的数据存储在本地,托管表的数据存储在hdfs上
B、删除托管表只会删除Inceptor上的元数据不会删除数据文件,删除外表两者都会被删除
C、删除外表只会删除Inceptor上的元数据不会删除数据文件,删除托管表两者都会被删除
D、删除托管表或外表,incepotr上的元数据和数据文件都会被删除
3、SQL运行中如果出现maptask数据特别多,执行时间又很短时可以通过小文件合并来进行优化,以下是合并参数有()
A.SET=TRUE;
B.SET=n;
C.SET=m;
D.SET=N;
4、以下关于inceptor日志信息描述正确的有()
A.Inceptorserver日志存放于各节点的/var/log/inceptorsql[x]/
B.可以通过inceptorserver4040查看SQL错误日志
C.Excutor日志存放于excutor节点的/var/log/inceptorsql[x]/
5、D.ExcutorGC日志存放于excutor节点的/var/log/inceptorsql[x]/有10G的数据,tableB有100G的数据,两个表通过共有的id列做关联查询name列,以下方式可以优化计算效率的是()
A.select/*+MAPJOIN(a)*/,fromtableAajointableBbon=
B.select/*+MAPJOIN(b)*/,fromtableAajointableBbon=
C.建表时将tableA和tableB根据id字段分相同数量的桶
D.建表时将tableA和tableB根据name字段分相同数量的桶
6、以下属于HMaster功能的是()
A.为RegionServer分配region
B.存储数据元信息
C.对region进行compact操作
D.管理用户对table的增删改查操作
7、Hyperbase与Inceptor的关系,描述正确的是()
A.两者不可或缺,Inceptor保证Hyperbase的服务的正常运行
B.两者没有任何关系
C.Inceptor可以访问Hyperbase
D.两者相辅相成
8、下列创建全局索引的语句,正确的是()
A.add_index't1','index_name’,‘COMBINE_INDEX|INDEXED=f1:
q1:
9|rowKey:
rowKey:
10,UPDATE=true'
B.add_global_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:
q1:
9|rowKey:
rowKey:
10,UPDATE=true'
C.add_fulltext_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:
q1:
9|rowKey:
rowKey:
10,UPDATE=true'
D.create_global_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:
q1:
9|rowKey:
rowKey:
10,UPDATE=true'
9、以下对流处理计算框架描述不正确的是()
A.SparkStreaming是基于微批(batch)对数据进行处理的
B.ApacheStorm是基于时间(event)对数据进行处理的
C.TranswarpStreamSQL可基于微批或事件对数据进行处理
D.以上说法都不对
10、某交通部门通过使用流监控全市过往24小时各个卡口数据,要求每分钟更新一次,原始流为org_stream,以下实现正确的是()
A.CREATESTREAMWINDOWtraffic_streamASSELECT*FROMoriginal_streamSTREAMw1AS(length'1'minuteslide'24'hour);
B.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'1'minuteslide'24'hour);
C.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'24'hourslide'1'minute);
D.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamAS(length'24'secondslide'1'minute);
11、Zookeeper服务描述正确的为()
A.Zookeeper中每一个server互为leader。
B.Zookeeper中只有一个leader,并通过备份机制产生。
C.Zookeeper中不存在leader,所有server共同提供服务。
D.Zookeeper通过选举机制确定leader,有且仅有一个。
12、通过Hue修改HDFS目录或文件的权限可以通过以下哪些方式实现()
A.Hdfs相应的权限
B.通过Hue超级用户hue登录
C.以hdfs用户登录
D.以上都可以
13、通过Oozie使用ssh,必须满足以下条件()
A.以root用户登录各个节点
B.Oozie用户可以免密钥登录
C.Oozie用户必须要有bash权限
D.所访问必须是集群的节点
14、有关使用sqoop抽取数据的原理的描述不正确的是()
A.sqoop在抽取数据的时候可以指定map的个数,map的个数决定在hdfs生成的数据文件的个数
B.sqoop抽取数据是个多节点并行抽取的过程,因此map的个数设置的越多性能越好
C.sqoop任务的切分是根据split字段的(最大值-最小值)/map数
D.sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作
15、在使用sqoop连接关系型数据时,下面哪个命令可以查看关系型数据库中有哪些表?
()
A.sqooplist-databases
--usernameroot
--password111111
B.--connectjdbc:
list-databases
--usernameroot
-P
C.--connectjdbc:
list-databases
--usernameroot
--password-filefile:
/root/.pwd
D.--connectjdbc:
list-tables
--usernameroot
--password111111
--connectjdbc:
16、要将采集的日志数据作为kafka的数据源,则flumesink需要设置为下列哪项参数()
A.hdfs
B.kafka
C..{topicname}
17、下列是关于flume和sqoop对比的描述,不正确的是()
A.flume主要用来采集日志而sqoop主要用来做数据迁移
B.flume主要采集流式数据而sqoop主要用来迁移规范化数据
C.flume和sqoop都是分布式处理任务
D.flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据
18、有关Elasticsearch描述有误的一项是()
A.它会利用多播形式发现节点。
B.主节点(masternode)通过选举方式产生。
C.主节点(masternode)进行集群的管理,只负责集群节点添加和删除。
D.主节点会去读集群状态信息,必要的时候进行恢复工作。
19、下面措施中,不能保证kafka数据可靠性的是()
A.kafka会将所有消息持久化到硬盘中保证其数据可靠性
B.kafka通过TopicPartition设置Replication来保证其数据可靠性
C.kafka通过设置消息重发机制保证其数据可靠性
D.kafka无法保证数据可靠性
20、TDH提供哪几种认证模式?
()
A.所有服务使用简单认证模式——所有服务都无需认证即可互相访问
B.所有服务都启用Kerberos认证,用户要提供Kerberosprincipal和密码(或者keytab)来访问各个服务
C.所有服务都启用Kerberos同时Inceptor启用LDAP认证
D.所有服务都启用LDAP认证
21、开启LDAP后,应该使用哪个命令连接Inceptor()
A.transwarp-t-h$ip。
B.beeline-ujdbc:
hive2:
//$ip:
10000-n$username-p$password。
C.beeline-u"jdbc:
hive2:
//$ip:
10000/default;principal=hive/node1@TDH"。
D.beeline-u"jdbc:
hive2:
//$ip:
10000/default;principal=user1@TDH"。
22、Inceptorserver服务无法启动时,该如何查看日志是()
A.查看TDHmanager所在节点/var/log/inceptorsql*/目录下的日志
B.查看Inceptorserver所在节点/var/log/inceptorsql*/目录下的日志
C.查看ResourceManager所在节点/var/log/Yarn*/目录下的日志
D.查看任意节点/var/log/inceptorsql*/目录下的日志
23、现有一批数据需要进行清洗,要求对其中null通过update转换为0,删除重复的记录,添加部分新的记录,则该表应该设计为()
A.Tex表
B.Orc表
C.Orc事务表
D.Holodesk表
24、现有一个表数据要存储在hyperbase上,并创建全文索引,原表数据10GB,HDFS配置为3副本,hyperbase压缩比例按1:
3计算,索引数据量为20GB,ES副本数为1,ES压缩比按1:
3计算,则该表需要多大的存储空间存储()
A.
B.
C.30GB
D.70GB
25、下面哪些工作不属于集群预安装工作()
A.为集群中每个节点的安装操作系统
B.选一个节点作为管理节点,修改其/etc/hosts文件
C.安装TranswarpManager管理界面
D.配置集群安全模式
【客观简答题(每题10分,共40分)】
1、请描述HDFS的高可用性实现机制:
答:
2、请列举出平台支持的5种存储格式/引擎的表,并详细描述各自的存储特点、使用场景、支持的操作以及是否支持分区分桶。
答:
Text表:
ORC表:
事务表:
HoloDesk表:
Hyperbase表:
3、请描述一个100GB文件写入Hyperbase表的整个过程(使用bulkload方式实现)
4、写出以下场景下的优化思路
(1)、假设在Inceptor上执行任务,发现MapTask数量多、执行时间短,应采取哪种措施来提升性能?
(2)、请简述在Inceptor中大表与大表做join、大表与小表做join时分别有哪些优化手段
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 工程师 培训 题库