数仓知识点

数据工程入门路线图(必看)

『文字版』：写在前面:本次文章主要分成三个部分【国内市场、海外市场、两者对比】

数仓知识点面试经验路线图

腾讯-PCG-内容平台-数据工程-一面(2025.3.10)

来自优秀学员～前三个是针对他简历提出的问题，大家可以看看学习思路，这位很厉害，2025年秋招已经提前批拿到了offer，30k

面经面试经验数仓知识点

Bilibili-商业化-大数据开发-一面(2025.4.7)

1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张，设置数据监控的有多少。 8. 多天分区数据处理，UDF函数报错，

面试答案数仓知识点 Data Warehouse

快手-大数据开发-二面(2025.4.8）

各种深挖 -— 这个我就不细写了，前面有很多给出了具体问题的简历深挖，大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光几万条，旺季几十万条 4. 看板加载时长缩短做了什么 5.

面试答案面经数仓知识点

美团-本地商业核心-基础研发部-上海-大数据开发-一面(2025.3.24)

1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢，排查思路? 10.

面经数仓知识点面试答案

阿里饿了么大数据开发2025.3.14

1. 在整个数仓模型构建中分了3个数据域，其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100，你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西，

面试经验数仓知识点 Data Warehouse

快手大数据开发一面2025.4.2

1. 建模理论:星型模型和雪花模型的区别，优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?

面试经验数仓知识点 Data Warehouse

字节跳动-生活服务-大数据开发一面(2025.3.13)

第一个实习，我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好，数据迁移确实是一个容易费力不讨好的工作，所以我给他写出来了~ 也欢迎其他姐妹投稿~（适用于国内，海外求职）

面经面试经验数仓知识点

字节电商数据开发一面面试题目附答案20250821

深挖简历部分略过了，但是我觉得这部分很重要，辅导的学生说他不想被写进来，所以看看剩下的吧~ （适用于国内，海外求职）

面经面试经验数仓知识点

美团一面数据开发面试题目附答案20250918

这里面有深挖项目部分，我给略过了，该文章限时公开~

面经 Data Warehouse 数仓知识点

字节大数据一面

2025.8.25 （适用于国内，海外求职）

面试经验 Data Warehouse 数仓知识点

蔚来数据开发一面面试题

这里面的最后一个问题“项目中遇到的难点”，因为不知道具体的项目，所以我根据我辅导的一个学员的项目写的，大家可以按照这篇文章的逻辑进行自己思考

数仓知识点 Data Warehouse 面经

字节数据开发面试题目附答案

字节跨部门转正三面（适用于国内，海外求职）

面经 Data Warehouse 数仓知识点

刚刚结束实习答辩，成功拿到转正offer，回想起这几个月的准备过程，有太多经验想和大家分享。很多同学私信问我转正到底看什么，答辩怎么准备，今天就把我的经验毫无保留地分享出来。转正到底看什么？别被表面功夫迷惑很多人以为转正就是走个过场，或者觉得平时表现好就够了。但实际上，公司考察的远比你想象的深入。技术能力是硬指标不是说你会用框架就行，而是要真正理解原理。我在答辩时被问到Spark为什么比MapReduce快，如果只知道"内存计算&

数仓知识点

大数据八股｜Hive的count(distinct)为什么慢

问题现象做数仓的同学肯定都遇到过这种情况： -- 这个SQL能跑死人，2小时还在执行 SELECT count(distinct user_id) FROM user_behavior_log WHERE dt = '2024-01-01'; --

数仓知识点

用AI准备面试：从简历优化到知识点掌握

我是如何用AI刷爆技术面试的最近发现个神器，OpenAI又搞了个学习模式，不光ChatGPT，Claude、Gemini这些都有了。说白了就是AI不再只是等你问，而是会主动抛问题，就像个面试官一样怼你。作为一个刚经历完秋招的人，我必须说，这玩意儿真的太好用了。先说简历这档子事以前改简历，要么自己瞎改，要么花钱找人。现在直接把简历丢给AI： "我简历上写了Flink实时处理，你觉得面试官会问啥？

数仓知识点

增加并行度可以解决数据倾斜吗？

在大数据面试、工作中，很多人一听到“数据倾斜”就脱口而出“加并行度！”但真相到底如何？其实，加并行度只对部分情况有效，根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇 分场景分析（+举例） 1. 轻度数据倾斜：并行度可以缓解 * 解释：如果只是部分 key 的数据量稍微大一些，

数仓知识点

深入理解：ETL开发与数据开发到底有啥区别？

小结今天咱们来好好聊聊ETL开发和数据开发这两个“兄弟”，它们听起来有点像，但其实各有各的“绝活”！简单来说，ETL（抽取、转换、加载）开发就是数据处理流水线上的一个关键环节，专门负责把数据从各种“角落”里捞出来，给它“洗洗澡，整整容”，然后送到该去的地方。而数据开发呢，

数仓知识点

数据仓库为什么要分层

概述在企业数字化转型过程中，数据仓库作为支撑业务决策的重要基础设施，承载着海量的业务数据。然而，如果将所有数据都放在一个层级中处理，就像把生产车间、仓储区和展示厅混在一起，必然会造成混乱。因此，数据仓库需要分层设计，就像建造一栋大楼需要设计不同的楼层一样，每一层都有其特定的功能和作用。典型的数据仓库分层架构根据数据处理的逻辑步骤，典型的数据仓库分为以下几个层次： 1. ODS层（原始数据层）功能定位：

数仓知识点