2021秋招大数据开发面经记录

大数据培训大数据开发

本人电子类专业，研二自学大数据开发一年左右，2021秋招的面经记录，目前有顺丰科技的意向，小米的offer，招银网络、中邮消费、工行、海康威视等在hr面之后，等待开奖。本人不求bat大厂offer，不想卷了，还是健康更重要，想找个相对于轻松一点的公司，或是银行里面的吧。面经在慢慢整理，大部分偏向于本人实习的项目问的，还有八股文。

自学大数据的小伙伴有问题可以评论区留言，能回答的我尽量解答。

陌陌-大数据开发(9.1 50min 一面)

自我介绍
数仓项目，详细介绍，doris的三大模型是什么，什么场景下使用哪种模型
MR的原理
hive 列转行，行转列，
窗口函数，rank, dense_rank, row_number
java类加载机制
array和list的区别
hashtable
线程的生命周期
阻塞
双亲委派机制
sql题
手撕代码，反转数组，空间为O(1)，双指针。

陌陌-大数据开发(9.3 45min 二面) 感谢信

自我介绍
collection下有什么
如何建索引，一个字段为null索引是否有效，explain有哪些字段，分别是什么意思
B树和B+树
进程和线程，synchronized什么时候使用，为什么要使用。
场景题，从订单表order 中实现商品关联的关系表。两个表order表，res表
面试官给建议，注重理论基础，实际中要学会活学活用。

小米-大数据开发(9.7 55min 一面)

自我介绍
数仓系统的工作介绍
doris和clickhouse的区别
日志分析系统怎么传数据的
hadoop的shuffle机制
hive的join注意事项
hive进行join，有string类型和int类型怎么处理
解决exlpode有字段为null失效问题的方法，alter view outer explode
自定义函数介绍 UDF、UDTF、UDAF
MR和spark的区别
hive 写计算1,3,7天留存率，用join 啥datediff快一点，

小米-大数据开发(9.8 45min 二面)

自我介绍
doris和clickhouse的区别
自定义UDF函数实现什么功能
sql题，牛客上面的中难度
忘了

小米-hr面（9.17电话 10min）

突然打电话，问了些hr基础问题，说后续保持联系，目前没后续，泡池子里了。

10.9电话offer

恒生-大数据开发-一面（20min）

自我介绍
多态，
接口和抽象类，什么时候使用，区别
java关键字，go还是co啥
final关键字
基础数据类型和封装类型，什么时候用哪种
数据库隔离级别，读提交和可重复度的区别，
索引的作用，什么时候要建索引
zookeeper解决单点故障问题，

恒生二面（9.14 20min）感谢信

自我介绍。
图像处理和大数据你是怎么选择做大数据的，说说你的想法。
大数据组件的了解。
场景题，top50和最大值两个数据处理的方法，怎么做。
社会实践或大学社团的经历。
对恒生电子的了解。
对金融了解吗。
职业规划。

海康威视研究院（9.15 20min电话一面）

介绍hadoop(hdfs,mr,yarn)，hdfs中的ha，摒弃了2nn了。
怎么进行资源调度，不太懂，偏底层
hdfs读写流程
kafka框架介绍
线程的创建方式，最常用的是哪个
集合的了解，hashmap，currenthasmap1.7和1.8的区别和改进。
类的加载过程，双亲委派机制
垃圾回收算法

海康威视（9.18 30min 视频二面）

自我介绍，重点突出大数据相关的基础
学习大数据基于什么样的背景，做哪些方面的项目，目的是什么，成果有什么
专利的创新点，怎么保证别人不侵权
高性能实时数仓项目中自己负责的任务，最大化计算的想法来源，参考了什么资料，怎么对比两条sql是属于相似的业务场景，
java了解程度，源码看过吗，哪些集合是线程安全的，hashmap底层的数据结构
某场景，有大量的数据对hashmap进行读写操作，但他们的key值都不一样，这个场景可行吗？（hash函数的喧选择，hashcode也可能相同，会发生hash冲突，大量的数据会扩容）

海康威视hr面（现场素质面，放弃，又有线上面9.29 ）

自我介绍
介绍项目
期望薪资、地点选择等常规hr面问题

海康威视offer（sp）

快手-数据科学（一面，差不多一个小时）

1、自我介绍，项目1相关
2、怎么设计创建数据库，做了哪些分析，（他说这里做数据可视化比较多，就说了数模比赛的分析）
3、随机森林怎么建模，最后缩小的是他们之间的方差还是偏差？
4、hive的UDF用来做什么（忘了，他说没听懂我说啥，解释他平常UDF用来做什么），UDF怎么自定义，和UDAF、UDTF的区别
5、MR和spark的区别
6、MR的工作原理
7、数据倾斜，怎么解决数据倾斜问题
8、主键和外键
9、row_number()，然后说了窗口函数的三个rank()、dense_rank()（天！我把dense_rank()说成了ranking）
10、order by 和 sort by 的区别
11、在线编程，算法题，求x的n次方，x,n取值范围正负，有会溢出的问题，暂不考虑溢出情况。（直接用for循环连乘.....复杂度是n，还可以怎么优化，递归，具体怎么实现）
12、有什么问题要问的（最后说我比较偏向于数开方向....这是婉拒的意思吧）

shein希音一面(9.24 30min) 感谢信

自我介绍
应用的技术偏向于哪些，擅长哪些
clickhouse的了解哪些
clickhouse支持删除更新操作吗？（用alter来更新和删除）
hive用得多吗？对hivesql熟悉吗？hive有哪些引擎
对mapreduce熟悉吗？
里面涉及到几种排序算法？
分区发生在哪个过程中？
shuffle阶段
环形缓冲区设置为100%再溢写，有什么缺点？
反问，偏向于业务，hivesql，离线实时数仓。

大华一面（大数据开发-java方向 9.28 40min）

自我介绍
介绍项目，问的很细
zookeeper解决单点故障问题，为什么要用，hadoop已经自带了解决方法
zookeeper监控的是什么类型的节点，短暂性还是永久性的
对大数据组件的了解，自己重点讲了hadoop框架
对java的了解，开发语言用啥
java、Scala写一些mapreduce任务，叫举例子
看的课外书

端点网络（偏平台系统开发 9.14 40min 一面）

自我介绍
介绍clickhouse的存储引擎适用的场景，面试官对clickhouse很熟悉。
业务场景的怎么选择计算
java string可以继承吗，除了因为final修饰不能继承外，还有什么原因，双亲委派机制中的
怎么进行垃圾回收，标记方法
hashcode方法和equals方法的作用和区别是什么，什么时候需要重写这两种方法。
大数据，spark了解哪些，说了spark任务提交流程
数据结构堆排序

待整理增加ing

有时间了，来更新整理的面经

中邮消费（9.17 18min一面）

自我介绍
一个项目介绍，全程问项目
行业选择、职业规划
反问

中邮消费（9.18 20min二面）

自我介绍
学习或项目中遇到的难题，没有解决的问题，为什么没有解决
大数据组件使用过哪些
hdfs数据同步
如果namenode挂掉了怎么办
处理过最大的数据级别是多大的
工作中遇到了难题，同事都不愿意接手，你愿意去做吗，为什么
反问环节（看来还是要学会流式处理呀，spark streaming，flink）

中邮消费offerday会议（9.24）介绍公司福利考核机制等等

中邮消费offer（10.28）

等这个offer等到天荒地老。终于发了。

招银网络一面（9.17 20min一面）

自我介绍
介绍项目
sql题，求班级平均分排序
数仓项目中谁处理数据
对实时数仓的理解
反问环节，江西师大的面试官，仿佛半个老乡哇，最后他让我好好准备接下来的面试，多看流式处理的，这是个加分项。他们有业务是偏向于流式处理的。

招银网络二面（9.24 30min）

自我介绍
项目中遇到的最大的挑战是什么
解决方法是你自己想出来的，还是团队讨论想出来的
在工作中有么有遇到过项目中因为别人一直提供不了接口，导致你的工作完成不了的问题
自己实习工作比较简单，没有遇到过，如果以后遇到了要怎么处理
甲方提的需求不合理，你会怎么做
让你作为一个项目的牵头人，你会怎么做
反问，介绍了招行数据中心的工作方向之类的。

招银网络hr面（9.27 20min）

自我介绍
秋招以来，面了哪些公司，有拿到哪些offer，什么公司
工作机会的选择怎么选
部门业务方向的选择，对哪些方向感兴趣，对行业的选择
地点的选择
地点不在范围之内为什么要去面试，不浪费时间吗
有没想过会对企业造成负担，增加他们的工作
在深圳的求职的薪资范围是多少
百度，阿里，字节投递状态，为什么不投？
传统行业和互联网行业的选择
对加班问题的看待，对加班强度接受的范围。
最有成就感的项目介绍
为什么有成就感，点在哪里
看的课外书
反问，上班时间（8:30上班，晚上8、9点常有的）、福利，薪酬offer阶段有邮件介绍。

（面试官气场好强大，问问题的语气有点不友善，好强势的感觉）

shein希音一面(9.24 30min) 感谢信

自我介绍
应用的技术偏向于哪些，擅长哪些
clickhouse的了解哪些
clickhouse支持删除更新操作吗？（用alter来更新和删除）
hive用得多吗？对hivesql熟悉吗？hive有哪些引擎
对mapreduce熟悉吗？
里面涉及到几种排序算法？
分区发生在哪个过程中？
shuffle阶段
环形缓冲区设置为100%再溢写，有什么缺点？
反问，偏向于业务，hivesql，离线实时数仓。

神策数据（9.16 50min一面）

面试官先来了个自我介绍，我自我介绍
异常的类型有哪些，如何处理异常，除了try catch finally以外还有什么异常处理方式，
垃圾回收算法
jvm内存分配
不记得了.....

神策数据（9.18 二面）

自我介绍
数据建模比赛详情
本科假肢手项目的内容，团队分工等
忘记了....

神策数据（9.27 三面，10.10hr面，发意向，10月底offer，不怎么中意的一个，结果发了个sp）

总结-碎碎念

因为本身水平不够，刚开始没有投大厂，后面很晚了才随便投试试，基本都招满了，一点儿反应都没有，所以没有大厂的面经。对于一心想要进大厂的兄弟们，建议投7、8月的提前批，早一点投，免得后面招满了，没有hc。

整体看下来，我的秋招差不多就是这样了，感觉没有说很难，可能自己太菜了，水平就这样。但对于一个自学大数据不到一年，然后参加秋招的渣渣来说，已经知足了。

如果有人看的话，后期会把自己自学大数据的路线，方法，要学习的技术栈，如何做项目，以及如何找大数据实习，如何准备大数据的秋招等等，涉及到的过程和问题都写下来，就当做是一个纪念吧，同时也给一些像我一样自学大数据的同学做一个参考吧。

为什么要转大数据开发？
大数据开发的学习路线？
学习资料分享，面试题总结八股文。
【见下面的文章】

书写不易，给个动力~

本文转自知乎，原文链接：https://zhuanlan.zhihu.com/p/418189405，如需转载请自行联系原作者

技术天地

2021秋招大数据开发面经记录

陌陌-大数据开发(9.1 50min 一面)

陌陌-大数据开发(9.3 45min 二面) 感谢信

小米-大数据开发(9.7 55min 一面)

小米-大数据开发(9.8 45min 二面)

小米-hr面（9.17电话 10min）

恒生-大数据开发-一面（20min）

恒生二面（9.14 20min）感谢信

海康威视研究院（9.15 20min电话一面）

海康威视（9.18 30min 视频二面）

海康威视hr面（现场素质面，放弃，又有线上面9.29 ）

海康威视offer（sp）

快手-数据科学（一面，差不多一个小时）

shein希音一面(9.24 30min) 感谢信

大华一面（大数据开发-java方向 9.28 40min）

端点网络（偏平台系统开发 9.14 40min 一面）

中邮消费（9.17 18min一面）

中邮消费（9.18 20min二面）

中邮消费offer（10.28）

招银网络一面（9.17 20min一面）

招银网络二面（9.24 30min）

招银网络hr面（9.27 20min）

shein希音一面(9.24 30min) 感谢信

神策数据（9.16 50min一面）

神策数据（9.18 二面）

神策数据（9.27 三面，10.10hr面，发意向，10月底offer，不怎么中意的一个，结果发了个sp）

总结-碎碎念

你的回复