字节数据开发/数据仓库面试二面
跨部门面试转正二面(适用于国内,海外求职)
34 篇文章 — 数据仓库实际项目案例
跨部门面试转正二面(适用于国内,海外求职)
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
适用于国内,海外求职
限时开放~
📌 公司:中国联通·大数据 📌 岗位:数据开发实习生 📅 面试轮次:技术面 + 综合素质面 🧠 被问问题如下: 自我介绍(项目能说得细点最好) Hive和HBase的区别?适用场景分别是什么? 说一下你熟悉的ETL流程,调度工具用过哪些? Kafka和Flume的区别?Kafka有分区机制吗? SQL题:窗口函数应用场景?写一个求分组TOP
面经 1 先进行自我介绍 2 说一下离职原因 3 目前主要做的什么业务 目前你们这边都有啥业务过程4 平时工作中有没有遇到数据倾斜,怎么实际处理的,除了这种方式5 看你做了实时,实时任务用的啥平台和技术6 olap引擎索引有哪些,平时用的最多的是哪个 7 做个题目,将连续登录3天起步的商户找到 8 有什么要找我这边了解的
适用于国内,海外求职
Snowflake 面试在考察深度、广度及工程经验上都较为全面。总结了三大主要问题及其考察点,并给出了详细的参考答案和答题要点提示。通过理解三层架构及其优势、掌握针对大数据查询的优化策略、熟悉实时数据管道设计方案,并准备常见的数据结构和算法题。
题目来源于网络,答案是小万本人整理~
1. 深深深挖简历 -— 答案略 2. 14亿数据,uid,amt金额,全局排序思路:金额中位数分区,金额分区 3. 英文文章,统计a的次数 4. Java exception 见过吗 5. Hive
(适用于国内,海外求职)
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. 计网:TCP3次握手,4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
各种深挖 -— 这个我就不细写了,前面有很多给出了具体问题的简历深挖,大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光 几万条,旺季几十万条 4. 看板加载时长缩短做了什么 5.
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~(适用于国内,海外求职)
里面有一些开放性问题是我自己写的,供参考~
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ (适用于国内,海外求职)
这里面有深挖项目部分,我给略过了,该文章限时公开~
2025.8.25 (适用于国内,海外求职)
1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗