【真题集锦】百度数仓面试题

【真题集锦】百度数仓面试题
  1. 项目中为什么考虑用两个平台来做?
  2. 为什么你们白天做实时,晚上做离线,白天有离线任务吗?晚上有实时任务吗?
  3. 你们两个平台统计的指标有什么不同,你们数据量多大?
  4. 有多少表?
  5. 表都存在hive里吗?
  6. 实时数据存在哪里?
  7. 解释下ODS,DWD等数据分层?
  8. 说一下你的数仓建模
  9. 为什么不在导数据到ODS层前对数据去重?
  10. 数据在前面去重会有性能上的影响吗,为什么?
  11. 你们整个离线任务是怎么调度的?
  12. 关于任务调度出现异常重跑会不会出现数据的重复?
  13. 数据重复了怎么做?
  14. 你们azkaban调度除了HQL任务还有其他任务吗?
  15. 给个场景,azkaban调度的过程中我想把中间某张表的数据导出到本地,怎么做?
  16. 你还用过azkaban做过哪些任务的调度?
  17. 你们的kafka设置了多少topic?
  18. 你们写入kafka的数据是什么格式的?
  19. kafka分区是怎么设置的?
  20. 你们kafka集群多少台,做高可用了吗,为什么可以做高可用?
  21. kafka高可用原理说一下
  22. shuffle流程是什么?
  23. MapReduce的shuffle与Spark的shuffle有什么区别?
  24. 为什么group by比distinct高效?
  25. 有3个key,10个reduce,这3个key会分到10个reduce上吗?
  26. 用HQL写个问题
  27. Hive有哪些保存元数据的方式,除了MySQL还有什么?
  28. Flink集群角色有哪些?
  29. Flink时间机制是什么?
  30. 刚才讲shuffle时提到了快速排序,可以写一个快速排序

答案只有会员才会自动显示。


小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。