1. 🧐对 Spark 的机制技术原理的了解,如 RDD 机制、DAG 机制等。

2. 🔍MapReduce 和 Spark 的区别。

3. 🔎Spark 宽依赖的情况及相关特性,如是否会写磁盘,在什么情况下写磁盘,写磁盘的过程(是否涉及合并等)。

4. 🤔Spark 常见产生 shuffle 的算子有哪些?

5. 📊常见的集群运算模式有哪些?

6. 📝本地模式(local mode)、standalone 模式的特点。

7. 🌐对 YARN 的了解。

8. 📖MySQL 索引的类型有哪些?在数据库中起什么作用?

9. 🔑模糊查询在不同情况(百分号在前、在后、前后都有)下是否会用到索引及原因,结合 B + 树索引的结构理解。

10. 💡HBase 和 MySQL 比较,在百万级别查询场景下哪个更适合及原因。

11. 📈数据倾斜产生的原因,如 join 操作(无效 key join 和有效 key join 的不同情况)、group 操作、count distinct 操作等。

12. 🛠️解决数据倾斜的常见方法有哪些?

13. 📚在特定代码逻辑下(如涉及成绩数据处理),如果有多个成绩情况(如同一同学多科目成绩)该如何处理。

14. 📋针对查找每个科目成绩前三的同学并输出姓名、科目、成绩、排名这一问题,应该使用 row_number、rank 还是 dense_rank 函数,为什么

参考答案(会员可见)

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

Subscribe Now

Already have an account?