小万和大树知识成长营地 (Page 4)

Flink 核心理念：有界与无界流

1. 引言：开启流处理新范式 Flink 简介与定位 Apache Flink 是一个为有界和无界数据流提供有状态计算的开源流处理框架。自诞生以来，Flink 凭借其高吞吐、低延迟、高可用性的核心优势，在实时计算领域占据了举足轻重的地位。它不仅仅是一个流处理引擎，更是一种全新的数据处理哲学。核心议题引入要真正理解 Flink 的强大之处，

Spark入门与核心架构: Driver、Executor与 Cluster Manager

1. 引言 (Introduction) 1.1 Spark的诞生与演进在大数据处理的浪潮中，Apache Spark 已成为事实上的标准计算引擎。它最初于2009年在加州大学伯克利分校的AMP实验室诞生，旨在克服传统Hadoop MapReduce框架在迭代计算和交互式数据分析方面的性能瓶颈。MapReduce基于磁盘的计算模型导致了大量的I/O开销，而Spark则通过引入基于内存的计算，将处理速度提升了几个数量级。2014年，Spark成为Apache软件基金会的顶级项目，并凭借其卓越的性能和通用性，

字节跳动大数据开发一面20250818

（适用于国内，海外求职）

面试答案数据开发数仓知识点

快手大数据开发二面附答案202504

1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行，stage id 优化方案 3. ods接入的交易系统数据质量差，通过dwd层进行过滤，怎么解决？ 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.

面经 Data Warehouse

百度-大数据平台开发-一面(2025.4.1)

1. 计网:TCP3次握手，4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn

面经

Bilibili-商业化-大数据开发-一面(2025.4.7)

1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张，设置数据监控的有多少。 8. 多天分区数据处理，UDF函数报错，

面试答案数仓知识点 Data Warehouse

HBase 的读写流程：从 RowKey 到 MemStore 与 HFile

HBase 作为一个面向列的、分布式的、可伸缩的 NoSQL 数据库，被设计用于在商用硬件集群上处理海量（PB 级别）的稀疏数据。其核心价值在于能够对庞大的数据集提供实时的随机读写能力。要充分发挥 HBase 的性能，深刻理解其内部数据流转机制至关重要。本文旨在深入剖析 HBase 最核心的生命线——读写流程，从一个客户端请求的发起，

快手-大数据开发-二面(2025.4.8）

各种深挖 -— 这个我就不细写了，前面有很多给出了具体问题的简历深挖，大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光几万条，旺季几十万条 4. 看板加载时长缩短做了什么 5.

面试答案面经数仓知识点

HBase 基础概念: 列式存储与表设计

开篇：当你的数据库开始“发福” 话说，咱们虚构一个快速发展的社交应用“ConnectSphere”。一开始，用户表设计在MySQL里，岁月静好。但随着业务迭代，产品经理一天一个想法，用户属性字段从10个激增到500个！什么兴趣爱好、教育背景、工作经历、常访问的页面、点赞过的商品... 好家伙，一个比一个能加。很快，

美团-本地商业核心-基础研发部-上海-大数据开发-一面(2025.3.24)

1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢，排查思路? 10.

面经数仓知识点面试答案

阿里饿了么大数据开发2025.3.14

1. 在整个数仓模型构建中分了3个数据域，其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100，你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西，

面试经验数仓知识点 Data Warehouse

快手大数据开发一面2025.4.2

1. 建模理论:星型模型和雪花模型的区别，优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?

面试经验数仓知识点 Data Warehouse

HBase核心知识体系详解：从基础到架构的“八股文”

《HBase架构解析:RegionServer、Master与ZooKeeper》

字节跳动-生活服务-大数据开发一面(2025.3.13)

第一个实习，我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好，数据迁移确实是一个容易费力不讨好的工作，所以我给他写出来了~ 也欢迎其他姐妹投稿~（适用于国内，海外求职）

面经面试经验数仓知识点

美团大数据开发实习 2025年7月

里面有一些开放性问题是我自己写的，供参考~

面经面试经验 Data Warehouse

Hive 元数据 Metastore 详解：表、分区与 Schema 管理

本篇旨在深度剖析 Apache Hive 的“中枢神经系统”——Metastore。作为 Hive 架构的基石，Metastore 的重要性无论在日常开发还是性能调优中都无可替代。本文将从核心架构与工作原理和Schema 管理与演进两大维度出发，系统讲解 Metastore 的部署模式、内部数据结构、以及基于“读时模式”（Schema-on-Read）

字节电商数据开发一面面试题目附答案20250821

深挖简历部分略过了，但是我觉得这部分很重要，辅导的学生说他不想被写进来，所以看看剩下的吧~ （适用于国内，海外求职）

面经面试经验数仓知识点

美团一面数据开发面试题目附答案20250918

这里面有深挖项目部分，我给略过了，该文章限时公开~

面经 Data Warehouse 数仓知识点

面试真题（答案）

本文包括答案以及相关知识点。

如何用 Hive 优化查询：分区、分桶与索引

前言对于每一位志在大厂的数据工程师而言，Apache Hive 是其技术简历上绕不开的一环。然而，从“会用”到“精通”，横亘着一道名为“性能调优”的巨大鸿沟。这些痛点你是否似曾相识？ * 面对动辄上百TB、万亿行的用户行为日志，一个核心的 D+1 报表任务需要跑上数小时。

Hive面试宝典：从核心架构到调优实战

前言本宝典旨在为广大求职者和大数据从业者提供一份全面、系统、且深入的Apache Hive学习与复习指南。我们整合了关于Hive的四个核心主题——核心架构与工作原理、数据模型与组织方式、HQL性能调优实战、以及主流查询引擎横向对比——并将它们组织成四个逻辑连贯的章节。从理解Hive是什么、如何工作，到掌握如何高效地组织数据，再到精通如何优化查询性能，最后到洞悉其在整个大数据生态中的位置，本宝典将引导您构建一个完整而扎实的Hive知识体系。无论您是准备面试，还是希望在工作中深化对Hive的理解，这份文档都将是您不可或缺的参考资料。