书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 卡通动漫 > 各大企业大数据技术面试题文档格式.docx

各大企业大数据技术面试题文档格式.docx

文档编号：20207968
上传时间：2023-01-18
格式：DOCX
页数：18
大小：25.03KB

《各大企业大数据技术面试题文档格式.docx》由会员分享，可在线阅读，更多相关《各大企业大数据技术面试题文档格式.docx（18页珍藏版）》请在冰豆网上搜索。

各大企业大数据技术面试题文档格式.docx

（不是想听数据倾斜，yarn有一个nodelable,yarn的标签策略）15.你们hadoop、spark用的什么版本，spark2.x有个黑名单机制16.spark你们Executor和core数量怎么选择的17.JVM了解吗，GC回收的是哪个内存18.flume你们怎么配置的，flume本身对cpu的消耗并不大，你们合理分配的。

（他就是想问flume是单独配置的还是和yarn/或者其他节点上搭配配置的，如果单独配置yarn）19.对hive和spark底层源码有没有了解20.对hive、spark的优化还有没有更深层次的了解20.多大数据量，集群数量（他们节点有上千个）21.求同一个域名下ip点击量的topN（用row_number）22.hive除了从hdfs加载数据，你们还有没有其他的来源23.hive和hbase对接24.hbase你们怎么查询一般25.coalesce和reparation26.hive数据存储上的优化（我说我们一般存储是ORC），接着问ORC的底层怎么存储27.除了hive、spark还对那个框架比较熟悉，了解一下28.对于小文件的处理办法（hive和spark都问）壹账通面试scala语法sparkssh免密不用浏览器怎么拿到webui的内容（类似于scp的命令）kafka配置flumelogstashstructedstreaming蚂蚁金服-数据技术专家-国际事业群-国际技术刚刚一个候选人电话面试了，问了一堆JVM的问题，内存泄漏，spring实现方式，数据库索引实现方式，1.主要的项目经历，以及项目中的指责，主要负责哪些工作，应对哪些场景，问的非常非常细。

项目经历及项目使用的技术问的很细致。

2.数据仓库的设计过程，解释一下第三范式，星型模型。

3.hive的数据不均衡是怎么处理的。

4.JAVA线程的实现方式。

5.JAVA的set与list区别。

6.JAVA中的int与Integer的区别1、主要问了项目结构我们的业务实现目的2、采集数据的来源3、主要负责项目的哪些内容问的特别细4、vm调优5、hbase的rowkey设计6、spark的内存管理、源码分析7、flume的采集处理分别有什么不同1、logtash的工作流程，如何恢复2、HDFSHA需要secondarynamenode吗，灾难恢复流程3、介绍java常用的集合类4、Arraylist扩容比例5、sqoop的原理6、如何设计读写锁，读操作加不加锁，写操作发生如何检测，写操作结束如何通知读操作？

7、RDD宽依赖和窄依赖，join？

reducebykey，aggreatebyKey8、SpringMVC处理请求流程数据开发职位1、java三种单例，优缺点2、wordcount的实现过程3、mr与spark的区别4、spark在client与在集群运行的区别5、相同的sql在hivesql与sparksql的实现中，为什么spark比hadoop快6、udf7、设计hbase表需要注意的点8、hbase的hlog9、数据同样存在hdfs,为什么hbase支持在线查询10、项目的架构11、数据从hive中用sparksql进行操作有遇到什么问题？

类似兼容性的问题。

12、sparkstream与strom,flink与什么区别13、有三个map,一个reduce来做top10.哪种方法最优。

数据量特别大。

14、mapreduce的原理微车面试1、自我介绍2、yarn调度过程？

3、yarn中调度原则？

并不是hadoop的调度原则FIFO计算能力调度公平调度而是移动计算而不移动数据4、hive数据倾斜？

5、hadoop的优化？

6、spark中RDD和dataframe？

7、spark中的dataset？

8、spark中算子groupbykey和reducebykey的区别？

9、3个SQLtablestudentnamecoursescoreaaEnglish75bbmath85aamath90第一个：

求各科成绩都大于80的名单selectnamefromstudentgroupbynamehavingmin（score）=80;

第二个：

开窗函数求每科成绩的前三第三个：

行转列使用sql输出以下结果nameEnglishmathaa7590bb085createtableifnotexistsresultasselectname,sum（casecoursewhenEnglishthenscoreelse0end）asEnglish,sum（casecoursewhenmaththenscoreelse0end）asmathfromstudentgroupbyname;

10、数据仓库建模的过程？

就是几层11、为什么数据仓库要分层？

12、数据仓库项目的架构？

13、kafka的作用以及架构？

14、kafka高并发性能好还是高吞吐量性能好？

我说的是高吞吐量15、spark算子中分为transformation和action，为什么要这么设计？

16、sparkstreamming操作的是RDD还是dataframe？

Dstream就是一系列的RDD，可以使用transform和foreachRDD，顺便说了一下两者的区别17、写SQL时，对distributeby和partitionby的使用产生了疑问？

我就说了一下两者的区别字节跳动-面试总结：

1.先是自我介绍。

2.简单介绍了一下最近做的项目。

问了些具体指标的实现。

3.介绍项目中数据的流向？

画了整体的架构，多又问了flume的架构以及各组件的介绍4.我的一个项目是我们的spark的session分析项目，就问了你们是怎么通过前台提交的数据来生成指定的任务的，怎么就知道它要分析的指标。

5.spark-core和sparkStreaming的区别？

4.说说对kafka分区的理解？

5.介绍kafka分区的时候我提到了spark并行度，所以就问了我并行度相关的东西。

数据量，集群规模，内存配置，总的集群内存，然后问了最高可以并行多少个任务，峰值的数据量，实时处理的时间间隔，还问你们为什么要使用sparkStreaming,它不是批处理的吗，实时性能满足你们场景吗？

这一节问的特详细，他还仔细算了算6.spark优化（问题没有这么直接，忘了具体怎么问的了）7.手写sql。

有一张表（表里有三个字段，分别是uid，date，vid（vid这个列里面有多个值，用,分隔的），还有一张表（表里有两个个字段，分别是vid,clicks）然后需求是统计每天点击次数（clicks）前三的vid。

（这个题记不清楚了，实际是有两张表，需要先行转列，然后两表关联，分组聚合，排序，取topn）。

8.手写代码。

要求：

给定一个字符串，找出字符串中对称的且长度最长的子串并输出。

比如abcdkfdsdfkcckfd中,dfkc和ckfd对称，kfds和sdfk对称。

9.手写代码。

给定几个字符串，比如ProgramFilesCommonFilesLenovoLPU,ProgramFilesCommonFilesausaaaaooo,ProgramFilesUWQUQUmmm,ProgramFilesUWQUQUqiqiqiProgramFilesUWQUQUsdsdsd。

然后将字符串输出为多叉树的结构（可以直接理解为目录树）。

10.了解hashMap吗？

说说hashMap的结构？

hash冲突的时候怎么解决,我说了hash冲突的时候hashMap会把相同hash值的元素放在同一条链上，然后又问我当某一条链已经非常长的时候还是hash冲突怎么解决？

面试官给的答案是二次哈希，他解释了一下我没听明白。

小年糕面试题先写一张笔试卷，半个小时。

试卷已经发到群里了。

人事说重点是sql那一题。

面试的时候先聊试卷。

重点是看思路，结果不重要。

问到的问题：

1.离职原因。

2.数据量一天多少，压缩后的数据量有多少？

3.数据仓库分了几层，分别是什么层？

4.ods层有几张表，每张表里有多少个字段？

5.DM层有多少张表，是依据什么来分的（建表）？

5.flume的框架是怎么搭建的（画图）？

6.使用kafka的时候遇到了什么问题？

7.flume对接到kafka中的时候，offset是怎么维护的（强调不是spark消费时候偏移量的维护）？

8.对自己的面试评分？

软通动力（外派XX）1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。

又问了一下数据规模。

2.手写sparkwordCount。

3.手写字符串hashcode排序算法。

4.手写sql。

有两张表，一张学生成绩表（里面有uid，subject，score字段），一张是学生信息表（里面有uid，uName字段），要求：

a.按照总成绩排名，输出格式为uName+总分；

b.所有科目中单科成绩前三的uName+subject+score。

5.了解哪些数据结构？

知道set和map吗？

有没有用过hashMap？

说一说hashMap的原理？

6.数组和链表的区别？

7.第二个人开始问项目，数据仓库部分，我说是用hive做的，问到hive的计算引擎是什么，既然hive是使用mapreduce作为计算引擎的，说一下mapreduce的数据从获取到输出的整个过程。

8.spark项目中实时处理部分的动态黑名单机制？

9.spark项目中遇到的问题？

10.还用过哪些hadoop组件？

我说了hbase，然后问了我的rowkey设计。

猿辅导项目到是没问什么问题，他问我对json串解析用的udf是是用什么写的，我说是用java写的，然后他就问了一些java的问题。

1.stringstr1=abcdefstringstr2=abcdef怎么去掉的这个符号2.stringstr1=543;

stringstr2=123写一个方法对这两个字符串进行相减输出returnstr1-str2;

3.stringstr1=abcdefgstringstr2=mndfgadfg首先取出str2和str1相匹配的字段，（可以是不连续的）然后按最大的长度将字符串输出软通动力（外派XX）1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。

字节跳动-面试总结：

艾曼数据面试题自我介绍项目介绍（spark）spark内存模型手写Wordcount（reducebykey和groupbykey两种方式）checkpoint和persist（onlydisk）的区别cache是怎么使用的hive分区分桶的意义mapjoin和reducejoin的应用场景orderby和sortby的区别开窗函数的使用（分组求topN）不用开窗函数分组求topN（三种方法）hive内部表和外部表的区别hive动态分区项目中写入数据库是怎么实现的（具体步骤）mappartition和foreachpartition的区别spark和hadoop的推测执行项目中任务是怎么提交的，指定了哪些参数集群规模（每个节点的内存，分配任务多少内存，CPU核数）aggregate和aggregatebykeyreduce和reducebykeyyarn的两种提交模式（spark）数据仓库的分层（结合项目）手写SQL，要求如下：

（order表）order_idorder_typeorder_time111N10:

00111A10:

05111B10:

10得到如下结果：

order_idorder_type_1order_type_2order_time_1order_time_2111NA10:

0010:

05111AB10:

0510:

10SQL语句如下：

第一步：

createtableifnotexistsorder_index（order_idstring,order_typestring,order_timebigint,indexint）rowformatdelimitedfieldsterminatedbyt;

第二步：

insertoverwritetableorder_indexselectorder_id,order_type,order_time,indexfrom（selectorder_id,order_type,order_time,row_numberover（distributebyorder_id,order_typesortbyorder_time）asindexfromorder）temp;

第三步：

createtableifnotexistsresult（order_idstring,order_type_1string,order_type_2string,order_time_1bigint,order_time