【真题集锦】百度数仓面试题

Jul 15, 2025 20 分钟阅读

【真题集锦】百度数仓面试题

项目中为什么考虑用两个平台来做？
为什么你们白天做实时，晚上做离线，白天有离线任务吗？晚上有实时任务吗？
你们两个平台统计的指标有什么不同，你们数据量多大？
有多少表？
表都存在hive里吗？
实时数据存在哪里？
解释下ODS，DWD等数据分层？
说一下你的数仓建模
为什么不在导数据到ODS层前对数据去重？
数据在前面去重会有性能上的影响吗，为什么？
你们整个离线任务是怎么调度的？
关于任务调度出现异常重跑会不会出现数据的重复？
数据重复了怎么做？
你们azkaban调度除了HQL任务还有其他任务吗？
给个场景，azkaban调度的过程中我想把中间某张表的数据导出到本地，怎么做？
你还用过azkaban做过哪些任务的调度？
你们的kafka设置了多少topic？
你们写入kafka的数据是什么格式的？
kafka分区是怎么设置的？
你们kafka集群多少台，做高可用了吗，为什么可以做高可用？
kafka高可用原理说一下
shuffle流程是什么？
MapReduce的shuffle与Spark的shuffle有什么区别？
为什么group by比distinct高效？
有3个key，10个reduce，这3个key会分到10个reduce上吗？
用HQL写个问题
Hive有哪些保存元数据的方式，除了MySQL还有什么？
Flink集群角色有哪些？
Flink时间机制是什么？
刚才讲shuffle时提到了快速排序，可以写一个快速排序

答案只有会员才会自动显示。

阅读全文

注册立即解锁全文并访问全部文章：仅付费订阅.

已有账号？登录

小万和大树知识成长营地