数据工程入门路线图(必看)
『文字版 』:写在前面:本次文章主要分成三个部分【国内市场、海外市场、两者对比】
27 篇文章 — 数据仓库知识点整理
『文字版 』:写在前面:本次文章主要分成三个部分【国内市场、海外市场、两者对比】
国内面试常考题目与考点
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
适用于国内,海外求职
限时开放~
(适用于国内,海外求职)
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
各种深挖 -— 这个我就不细写了,前面有很多给出了具体问题的简历深挖,大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光 几万条,旺季几十万条 4. 看板加载时长缩短做了什么 5.
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~(适用于国内,海外求职)
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ (适用于国内,海外求职)
这里面有深挖项目部分,我给略过了,该文章限时公开~
2025.8.25 (适用于国内,海外求职)
这里面的最后一个问题“项目中遇到的难点”,因为不知道具体的项目,所以我根据我辅导的一个学员的项目写的,大家可以按照这篇文章的逻辑进行自己思考
字节跨部门转正三面(适用于国内,海外求职)
刚刚结束实习答辩,成功拿到转正offer,回想起这几个月的准备过程,有太多经验想和大家分享。很多同学私信问我转正到底看什么,答辩怎么准备,今天就把我的经验毫无保留地分享出来。 转正到底看什么?别被表面功夫迷惑 很多人以为转正就是走个过场,或者觉得平时表现好就够了。但实际上,公司考察的远比你想象的深入。 技术能力是硬指标 不是说你会用框架就行,而是要真正理解原理。我在答辩时被问到Spark为什么比MapReduce快,如果只知道"内存计算&
问题现象 做数仓的同学肯定都遇到过这种情况: -- 这个SQL能跑死人,2小时还在执行 SELECT count(distinct user_id) FROM user_behavior_log WHERE dt = '2024-01-01'; --
我是如何用AI刷爆技术面试的 最近发现个神器,OpenAI又搞了个学习模式,不光ChatGPT,Claude、Gemini这些都有了。说白了就是AI不再只是等你问,而是会主动抛问题,就像个面试官一样怼你。 作为一个刚经历完秋招的人,我必须说,这玩意儿真的太好用了。 先说简历这档子事 以前改简历,要么自己瞎改,要么花钱找人。现在直接把简历丢给AI: "我简历上写了Flink实时处理,你觉得面试官会问啥?
在大数据面试、工作中,很多人一听到“数据倾斜”就脱口而出“加并行度!”但真相到底如何?其实,加并行度只对部分情况有效,根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇 分场景分析(+举例) 1. 轻度数据倾斜:并行度可以缓解 * 解释:如果只是部分 key 的数据量稍微大一些,
小结 今天咱们来好好聊聊ETL开发和数据开发这两个“兄弟”,它们听起来有点像,但其实各有各的“绝活”!简单来说,ETL(抽取、转换、加载)开发就是数据处理流水线上的一个关键环节,专门负责把数据从各种“角落”里捞出来,给它“洗洗澡,整整容”,然后送到该去的地方。而数据开发呢,
概述 在企业数字化转型过程中,数据仓库作为支撑业务决策的重要基础设施,承载着海量的业务数据。然而,如果将所有数据都放在一个层级中处理,就像把生产车间、仓储区和展示厅混在一起,必然会造成混乱。因此,数据仓库需要分层设计,就像建造一栋大楼需要设计不同的楼层一样,每一层都有其特定的功能和作用。 典型的数据仓库分层架构 根据数据处理的逻辑步骤,典型的数据仓库分为以下几个层次: 1. ODS层(原始数据层) 功能定位:
针对国内,国外面试