小万和大树知识成长营地 (Page 4)

HBase 的读写流程：从 RowKey 到 MemStore 与 HFile

HBase 作为一个面向列的、分布式的、可伸缩的 NoSQL 数据库，被设计用于在商用硬件集群上处理海量（PB 级别）的稀疏数据。其核心价值在于能够对庞大的数据集提供实时的随机读写能力。要充分发挥 HBase 的性能，深刻理解其内部数据流转机制至关重要。本文旨在深入剖析 HBase 最核心的生命线——读写流程，从一个客户端请求的发起，

快手-大数据开发-二面(2025.4.8）

各种深挖 -— 这个我就不细写了，前面有很多给出了具体问题的简历深挖，大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光几万条，旺季几十万条 4. 看板加载时长缩短做了什么 5.

面试答案面经数仓知识点

HBase 基础概念: 列式存储与表设计

开篇：当你的数据库开始“发福” 话说，咱们虚构一个快速发展的社交应用“ConnectSphere”。一开始，用户表设计在MySQL里，岁月静好。但随着业务迭代，产品经理一天一个想法，用户属性字段从10个激增到500个！什么兴趣爱好、教育背景、工作经历、常访问的页面、点赞过的商品... 好家伙，一个比一个能加。很快，

美团-本地商业核心-基础研发部-上海-大数据开发-一面(2025.3.24)

1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢，排查思路? 10.

面经数仓知识点面试答案

阿里饿了么大数据开发2025.3.14

1. 在整个数仓模型构建中分了3个数据域，其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100，你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西，

面试经验数仓知识点 Data Warehouse

快手大数据开发一面2025.4.2

1. 建模理论:星型模型和雪花模型的区别，优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?

面试经验数仓知识点 Data Warehouse

HBase核心知识体系详解：从基础到架构的“八股文”

《HBase架构解析:RegionServer、Master与ZooKeeper》

字节跳动-生活服务-大数据开发一面(2025.3.13)

第一个实习，我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好，数据迁移确实是一个容易费力不讨好的工作，所以我给他写出来了~ 也欢迎其他姐妹投稿~（适用于国内，海外求职）

面经面试经验数仓知识点

美团大数据开发实习 2025年7月

里面有一些开放性问题是我自己写的，供参考~

面经面试经验 Data Warehouse

Hive 元数据 Metastore 详解：表、分区与 Schema 管理

本篇旨在深度剖析 Apache Hive 的“中枢神经系统”——Metastore。作为 Hive 架构的基石，Metastore 的重要性无论在日常开发还是性能调优中都无可替代。本文将从核心架构与工作原理和Schema 管理与演进两大维度出发，系统讲解 Metastore 的部署模式、内部数据结构、以及基于“读时模式”（Schema-on-Read）

字节电商数据开发一面面试题目附答案20250821

深挖简历部分略过了，但是我觉得这部分很重要，辅导的学生说他不想被写进来，所以看看剩下的吧~ （适用于国内，海外求职）

面经面试经验数仓知识点

美团一面数据开发面试题目附答案20250918

这里面有深挖项目部分，我给略过了，该文章限时公开~

面经 Data Warehouse 数仓知识点

如何用 Hive 优化查询：分区、分桶与索引

前言对于每一位志在大厂的数据工程师而言，Apache Hive 是其技术简历上绕不开的一环。然而，从“会用”到“精通”，横亘着一道名为“性能调优”的巨大鸿沟。这些痛点你是否似曾相识？ * 面对动辄上百TB、万亿行的用户行为日志，一个核心的 D+1 报表任务需要跑上数小时。

前言本宝典旨在为广大求职者和大数据从业者提供一份全面、系统、且深入的Apache Hive学习与复习指南。我们整合了关于Hive的四个核心主题——核心架构与工作原理、数据模型与组织方式、HQL性能调优实战、以及主流查询引擎横向对比——并将它们组织成四个逻辑连贯的章节。从理解Hive是什么、如何工作，到掌握如何高效地组织数据，再到精通如何优化查询性能，最后到洞悉其在整个大数据生态中的位置，本宝典将引导您构建一个完整而扎实的Hive知识体系。无论您是准备面试，还是希望在工作中深化对Hive的理解，这份文档都将是您不可或缺的参考资料。

字节大数据一面

2025.8.25 （适用于国内，海外求职）

面试经验 Data Warehouse 数仓知识点

蚂蚁数据开发面试题目面经

1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据，能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗，怎么解决的，起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时，为啥要做实时任务，离线的数据不能解决吗，实时成本怎么控制，延迟了怎么解决，有遇到过延迟问题吗

面试经验面经 Data Warehouse

蔚来数据开发一面面试题

这里面的最后一个问题“项目中遇到的难点”，因为不知道具体的项目，所以我根据我辅导的一个学员的项目写的，大家可以按照这篇文章的逻辑进行自己思考

数仓知识点 Data Warehouse 面经

字节数据开发面试题目附答案

字节跨部门转正三面（适用于国内，海外求职）

面经 Data Warehouse 数仓知识点

京东大数据开发 Data engineer - 社招（校招可看）

京东大数据开发，社招题目，但是整体看下来其实校招也可以看，但是这里面涉及到了很多数据质量的问题，建议新手看的话从这些去考虑什么样的数据模型是质量好，多思考思考。

面经

字节大数据开发跨部门转正

适用于国内，海外求职

面经

宽德投资数据开发/大数据开发面试题目

1. 自我介绍 2. dqc怎么配的？ 3. sla怎么配的？ 4. mysql发生数据的增删改的时候，你怎么同步？ 5. 你说用Flink cdc完成了数据同步，你讲讲具体怎么操作？ 6. 了不了解redis？ 7. redis为什么快 8. redis的底层结构是什么？ 9.

面经

字节大数据开发