- 讲讲实习做的项目:背景、内容、你做了什么、结果
- "dwd、dwm、dws这三层的区别
- 讲下spark有哪些优化方法
- 小文件产生的原因和危害
- Sparkjoin分多少种 什么时候用hash join,什么时候得到sort merge join-------
- sql题:表名:流量表log(每天有百亿数据),字段:用户id:uid,设备id:devic id,城市:city,时间:time,日期:date;问题:最近7天中每天活跃的用户数和设备数是多少?(坑:百亿级的每天只有7个分区处理,可能会造成数据倾斜预聚合?)
参考答案如下: