- 项目中为什么考虑用两个平台来做?
- 为什么你们白天做实时,晚上做离线,白天有离线任务吗?晚上有实时任务吗?
- 你们两个平台统计的指标有什么不同,你们数据量多大?
- 有多少表?
- 表都存在hive里吗?
- 实时数据存在哪里?
- 解释下ODS,DWD等数据分层?
- 说一下你的数仓建模
- 为什么不在导数据到ODS层前对数据去重?
- 数据在前面去重会有性能上的影响吗,为什么?
- 你们整个离线任务是怎么调度的?
- 关于任务调度出现异常重跑会不会出现数据的重复?
- 数据重复了怎么做?
- 你们azkaban调度除了HQL任务还有其他任务吗?
- 给个场景,azkaban调度的过程中我想把中间某张表的数据导出到本地,怎么做?
- 你还用过azkaban做过哪些任务的调度?
- 你们的kafka设置了多少topic?
- 你们写入kafka的数据是什么格式的?
- kafka分区是怎么设置的?
- 你们kafka集群多少台,做高可用了吗,为什么可以做高可用?
- kafka高可用原理说一下
- shuffle流程是什么?
- MapReduce的shuffle与Spark的shuffle有什么区别?
- 为什么group by比distinct高效?
- 有3个key,10个reduce,这3个key会分到10个reduce上吗?
- 用HQL写个问题
- Hive有哪些保存元数据的方式,除了MySQL还有什么?
- Flink集群角色有哪些?
- Flink时间机制是什么?
- 刚才讲shuffle时提到了快速排序,可以写一个快速排序
答案只有会员才会自动显示。