字节数据开发/数据仓库面试二面
跨部门面试转正二面
15 篇文章 — 数据仓库实际项目案例
跨部门面试转正二面
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
1. 实习学到什么 2. 本科到研究生的专业跨度 3. 你的优势。 4. 实习中成就感的事 5. Clickhouse 的每日百亿数据的优化 6. 分区的存储表现 7. Clickhouse 中物化视图的更新 8. Clickhouse 索引了解吗、Hive中有索引吗、
限时开放~
📌 公司:中国联通·大数据 📌 岗位:数据开发实习生 📅 面试轮次:技术面 + 综合素质面 🧠 被问问题如下: 自我介绍(项目能说得细点最好) Hive和HBase的区别?适用场景分别是什么? 说一下你熟悉的ETL流程,调度工具用过哪些? Kafka和Flume的区别?Kafka有分区机制吗? SQL题:窗口函数应用场景?写一个求分组TOP
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. 计网:TCP3次握手,4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn
限时开放~
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~
里面有一些开放性问题是我自己写的,供参考~
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ 限时公开
这里面有深挖项目部分,我给略过了,该文章限时公开~
1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗
字节跨部门转正三面