各大企业大数据技术面试题文档格式.docx
- 文档编号:20207968
- 上传时间:2023-01-18
- 格式:DOCX
- 页数:18
- 大小:25.03KB
各大企业大数据技术面试题文档格式.docx
《各大企业大数据技术面试题文档格式.docx》由会员分享,可在线阅读,更多相关《各大企业大数据技术面试题文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
(不是想听数据倾斜,yarn有一个nodelable,yarn的标签策略)15.你们hadoop、spark用的什么版本,spark2.x有个黑名单机制16.spark你们Executor和core数量怎么选择的17.JVM了解吗,GC回收的是哪个内存18.flume你们怎么配置的,flume本身对cpu的消耗并不大,你们合理分配的。
(他就是想问flume是单独配置的还是和yarn/或者其他节点上搭配配置的,如果单独配置yarn)19.对hive和spark底层源码有没有了解20.对hive、spark的优化还有没有更深层次的了解20.多大数据量,集群数量(他们节点有上千个)21.求同一个域名下ip点击量的topN(用row_number)22.hive除了从hdfs加载数据,你们还有没有其他的来源23.hive和hbase对接24.hbase你们怎么查询一般25.coalesce和reparation26.hive数据存储上的优化(我说我们一般存储是ORC),接着问ORC的底层怎么存储27.除了hive、spark还对那个框架比较熟悉,了解一下28.对于小文件的处理办法(hive和spark都问)壹账通面试scala语法sparkssh免密不用浏览器怎么拿到webui的内容(类似于scp的命令)kafka配置flumelogstashstructedstreaming蚂蚁金服-数据技术专家-国际事业群-国际技术刚刚一个候选人电话面试了,问了一堆JVM的问题,内存泄漏,spring实现方式,数据库索引实现方式,1.主要的项目经历,以及项目中的指责,主要负责哪些工作,应对哪些场景,问的非常非常细。
项目经历及项目使用的技术问的很细致。
2.数据仓库的设计过程,解释一下第三范式,星型模型。
3.hive的数据不均衡是怎么处理的。
4.JAVA线程的实现方式。
5.JAVA的set与list区别。
6.JAVA中的int与Integer的区别1、主要问了项目结构我们的业务实现目的2、采集数据的来源3、主要负责项目的哪些内容问的特别细4、vm调优5、hbase的rowkey设计6、spark的内存管理、源码分析7、flume的采集处理分别有什么不同1、logtash的工作流程,如何恢复2、HDFSHA需要secondarynamenode吗,灾难恢复流程3、介绍java常用的集合类4、Arraylist扩容比例5、sqoop的原理6、如何设计读写锁,读操作加不加锁,写操作发生如何检测,写操作结束如何通知读操作?
7、RDD宽依赖和窄依赖,join?
reducebykey,aggreatebyKey8、SpringMVC处理请求流程数据开发职位1、java三种单例,优缺点2、wordcount的实现过程3、mr与spark的区别4、spark在client与在集群运行的区别5、相同的sql在hivesql与sparksql的实现中,为什么spark比hadoop快6、udf7、设计hbase表需要注意的点8、hbase的hlog9、数据同样存在hdfs,为什么hbase支持在线查询10、项目的架构11、数据从hive中用sparksql进行操作有遇到什么问题?
类似兼容性的问题。
12、sparkstream与strom,flink与什么区别13、有三个map,一个reduce来做top10.哪种方法最优。
数据量特别大。
14、mapreduce的原理微车面试1、自我介绍2、yarn调度过程?
3、yarn中调度原则?
并不是hadoop的调度原则FIFO计算能力调度公平调度而是移动计算而不移动数据4、hive数据倾斜?
5、hadoop的优化?
6、spark中RDD和dataframe?
7、spark中的dataset?
8、spark中算子groupbykey和reducebykey的区别?
9、3个SQLtablestudentnamecoursescoreaaEnglish75bbmath85aamath90第一个:
求各科成绩都大于80的名单selectnamefromstudentgroupbynamehavingmin(score)=80;
第二个:
开窗函数求每科成绩的前三第三个:
行转列使用sql输出以下结果nameEnglishmathaa7590bb085createtableifnotexistsresultasselectname,sum(casecoursewhenEnglishthenscoreelse0end)asEnglish,sum(casecoursewhenmaththenscoreelse0end)asmathfromstudentgroupbyname;
10、数据仓库建模的过程?
就是几层11、为什么数据仓库要分层?
12、数据仓库项目的架构?
13、kafka的作用以及架构?
14、kafka高并发性能好还是高吞吐量性能好?
我说的是高吞吐量15、spark算子中分为transformation和action,为什么要这么设计?
16、sparkstreamming操作的是RDD还是dataframe?
Dstream就是一系列的RDD,可以使用transform和foreachRDD,顺便说了一下两者的区别17、写SQL时,对distributeby和partitionby的使用产生了疑问?
我就说了一下两者的区别字节跳动-面试总结:
1.先是自我介绍。
2.简单介绍了一下最近做的项目。
问了些具体指标的实现。
3.介绍项目中数据的流向?
画了整体的架构,多又问了flume的架构以及各组件的介绍4.我的一个项目是我们的spark的session分析项目,就问了你们是怎么通过前台提交的数据来生成指定的任务的,怎么就知道它要分析的指标。
5.spark-core和sparkStreaming的区别?
4.说说对kafka分区的理解?
5.介绍kafka分区的时候我提到了spark并行度,所以就问了我并行度相关的东西。
数据量,集群规模,内存配置,总的集群内存,然后问了最高可以并行多少个任务,峰值的数据量,实时处理的时间间隔,还问你们为什么要使用sparkStreaming,它不是批处理的吗,实时性能满足你们场景吗?
这一节问的特详细,他还仔细算了算6.spark优化(问题没有这么直接,忘了具体怎么问的了)7.手写sql。
有一张表(表里有三个字段,分别是uid,date,vid(vid这个列里面有多个值,用,分隔的),还有一张表(表里有两个个字段,分别是vid,clicks)然后需求是统计每天点击次数(clicks)前三的vid。
(这个题记不清楚了,实际是有两张表,需要先行转列,然后两表关联,分组聚合,排序,取topn)。
8.手写代码。
要求:
给定一个字符串,找出字符串中对称的且长度最长的子串并输出。
比如abcdkfdsdfkcckfd中,dfkc和ckfd对称,kfds和sdfk对称。
9.手写代码。
给定几个字符串,比如ProgramFilesCommonFilesLenovoLPU,ProgramFilesCommonFilesausaaaaooo,ProgramFilesUWQUQUmmm,ProgramFilesUWQUQUqiqiqiProgramFilesUWQUQUsdsdsd。
然后将字符串输出为多叉树的结构(可以直接理解为目录树)。
10.了解hashMap吗?
说说hashMap的结构?
hash冲突的时候怎么解决,我说了hash冲突的时候hashMap会把相同hash值的元素放在同一条链上,然后又问我当某一条链已经非常长的时候还是hash冲突怎么解决?
面试官给的答案是二次哈希,他解释了一下我没听明白。
小年糕面试题先写一张笔试卷,半个小时。
试卷已经发到群里了。
人事说重点是sql那一题。
面试的时候先聊试卷。
重点是看思路,结果不重要。
问到的问题:
1.离职原因。
2.数据量一天多少,压缩后的数据量有多少?
3.数据仓库分了几层,分别是什么层?
4.ods层有几张表,每张表里有多少个字段?
5.DM层有多少张表,是依据什么来分的(建表)?
5.flume的框架是怎么搭建的(画图)?
6.使用kafka的时候遇到了什么问题?
7.flume对接到kafka中的时候,offset是怎么维护的(强调不是spark消费时候偏移量的维护)?
8.对自己的面试评分?
软通动力(外派XX)1.首先自我介绍,问离职原因,岗位职责以及项目中负责的部分。
又问了一下数据规模。
2.手写sparkwordCount。
3.手写字符串hashcode排序算法。
4.手写sql。
有两张表,一张学生成绩表(里面有uid,subject,score字段),一张是学生信息表(里面有uid,uName字段),要求:
a.按照总成绩排名,输出格式为uName+总分;
b.所有科目中单科成绩前三的uName+subject+score。
5.了解哪些数据结构?
知道set和map吗?
有没有用过hashMap?
说一说hashMap的原理?
6.数组和链表的区别?
7.第二个人开始问项目,数据仓库部分,我说是用hive做的,问到hive的计算引擎是什么,既然hive是使用mapreduce作为计算引擎的,说一下mapreduce的数据从获取到输出的整个过程。
8.spark项目中实时处理部分的动态黑名单机制?
9.spark项目中遇到的问题?
10.还用过哪些hadoop组件?
我说了hbase,然后问了我的rowkey设计。
猿辅导项目到是没问什么问题,他问我对json串解析用的udf是是用什么写的,我说是用java写的,然后他就问了一些java的问题。
1.stringstr1=abcdefstringstr2=abcdef怎么去掉的这个符号2.stringstr1=543;
stringstr2=123写一个方法对这两个字符串进行相减输出returnstr1-str2;
3.stringstr1=abcdefgstringstr2=mndfgadfg首先取出str2和str1相匹配的字段,(可以是不连续的)然后按最大的长度将字符串输出软通动力(外派XX)1.首先自我介绍,问离职原因,岗位职责以及项目中负责的部分。
字节跳动-面试总结:
艾曼数据面试题自我介绍项目介绍(spark)spark内存模型手写Wordcount(reducebykey和groupbykey两种方式)checkpoint和persist(onlydisk)的区别cache是怎么使用的hive分区分桶的意义mapjoin和reducejoin的应用场景orderby和sortby的区别开窗函数的使用(分组求topN)不用开窗函数分组求topN(三种方法)hive内部表和外部表的区别hive动态分区项目中写入数据库是怎么实现的(具体步骤)mappartition和foreachpartition的区别spark和hadoop的推测执行项目中任务是怎么提交的,指定了哪些参数集群规模(每个节点的内存,分配任务多少内存,CPU核数)aggregate和aggregatebykeyreduce和reducebykeyyarn的两种提交模式(spark)数据仓库的分层(结合项目)手写SQL,要求如下:
(order表)order_idorder_typeorder_time111N10:
00111A10:
05111B10:
10得到如下结果:
order_idorder_type_1order_type_2order_time_1order_time_2111NA10:
0010:
05111AB10:
0510:
10SQL语句如下:
第一步:
createtableifnotexistsorder_index(order_idstring,order_typestring,order_timebigint,indexint)rowformatdelimitedfieldsterminatedbyt;
第二步:
insertoverwritetableorder_indexselectorder_id,order_type,order_time,indexfrom(selectorder_id,order_type,order_time,row_numberover(distributebyorder_id,order_typesortbyorder_time)asindexfromorder)temp;
第三步:
createtableifnotexistsresult(order_idstring,order_type_1string,order_type_2string,order_time_1bigint,order_time
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据 技术 试题