数据工程入门路线图(必看)
『文字版 』:写在前面:本次文章主要分成三个部分【国内市场、海外市场、两者对比】
29 篇文章 — 数据仓库知识点整理
『文字版 』:写在前面:本次文章主要分成三个部分【国内市场、海外市场、两者对比】
国内面试常考题目与考点
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
1. 实习学到什么 2. 本科到研究生的专业跨度 3. 你的优势。 4. 实习中成就感的事 5. Clickhouse 的每日百亿数据的优化 6. 分区的存储表现 7. Clickhouse 中物化视图的更新 8. Clickhouse 索引了解吗、Hive中有索引吗、
限时开放~
1. 深深深挖简历 -— 答案略 2. 14亿数据,uid,amt金额,全局排序思路:金额中位数分区,金额分区 3. 英文文章,统计a的次数 4. Java exception 见过吗 5. Hive
1. 拷打项目 -— 略 2. 有什么高吞吐写入的组件(doris,ck。。) 3. 为什么支持高吞吐呢(LSM,写缓存,多节点) 4. clickhouse不适合哪些场景(join,高频微批写入,高qps) 5. clcikhouse和doris适合点查吗,
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
限时开放~
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ 限时公开
这里面有深挖项目部分,我给略过了,该文章限时公开~
2025.8.25
这里面的最后一个问题“项目中遇到的难点”,因为不知道具体的项目,所以我根据我辅导的一个学员的项目写的,大家可以按照这篇文章的逻辑进行自己思考
字节跨部门转正三面
刚刚结束实习答辩,成功拿到转正offer,回想起这几个月的准备过程,有太多经验想和大家分享。很多同学私信问我转正到底看什么,答辩怎么准备,今天就把我的经验毫无保留地分享出来。 转正到底看什么?别被表面功夫迷惑 很多人以为转正就是走个过场,或者觉得平时表现好就够了。但实际上,公司考察的远比你想象的深入。 技术能力是硬指标 不是说你会用框架就行,而是要真正理解原理。我在答辩时被问到Spark为什么比MapReduce快,如果只知道"内存计算&
问题现象 做数仓的同学肯定都遇到过这种情况: -- 这个SQL能跑死人,2小时还在执行 SELECT count(distinct user_id) FROM user_behavior_log WHERE dt = '2024-01-01'; --
我是如何用AI刷爆技术面试的 最近发现个神器,OpenAI又搞了个学习模式,不光ChatGPT,Claude、Gemini这些都有了。说白了就是AI不再只是等你问,而是会主动抛问题,就像个面试官一样怼你。 作为一个刚经历完秋招的人,我必须说,这玩意儿真的太好用了。 先说简历这档子事 以前改简历,要么自己瞎改,要么花钱找人。现在直接把简历丢给AI: "我简历上写了Flink实时处理,你觉得面试官会问啥?
在大数据面试、工作中,很多人一听到“数据倾斜”就脱口而出“加并行度!”但真相到底如何?其实,加并行度只对部分情况有效,根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇 分场景分析(+举例) 1. 轻度数据倾斜:并行度可以缓解 * 解释:如果只是部分 key 的数据量稍微大一些,
小结 今天咱们来好好聊聊ETL开发和数据开发这两个“兄弟”,它们听起来有点像,但其实各有各的“绝活”!简单来说,ETL(抽取、转换、加载)开发就是数据处理流水线上的一个关键环节,专门负责把数据从各种“角落”里捞出来,给它“洗洗澡,整整容”,然后送到该去的地方。而数据开发呢,