小万和大树知识成长营地 (Page 6)

MapReduce Shuffle机制详解

什么是Shuffle？ Shuffle是MapReduce框架中最核心也是最复杂的阶段，它发生在Map阶段和Reduce阶段之间。简单来说，Shuffle就是将Map任务的输出数据重新分发给相应的Reduce任务的过程。为什么需要Shuffle？想象一个词频统计的场景： * 多个Map任务处理不同的文档片段，每个Map都会输出(word, count)键值对 * 但同一个单词可能出现在不同的Map输出中 * 我们需要将相同key的数据汇聚到同一个Reduce任务中进行合并计算这就是Shuffle存在的意义：数据的重新分发和聚合。 Shuffle的详细流程 1. Map端的Shuffle（Map-side

数仓知识点

【问答专栏】第一期

学历问题:投不到简历和学历直接相关，但只要拿到面试机会，更看重你的表现和潜力，别太焦虑。考不考算法? 为什么一面总挂?! AI冲击会被淘汰吗? 不会八股也能进大厂吗?

面试经验

Hadoop数据仓库知识点整理

Hadoop大数据仓库完整知识点详解知识点1：集群的最主要瓶颈 ⭐⭐⭐ 核心结论磁盘IO是集群的最主要瓶颈详细分析为什么是磁盘IO？ 1. 硬件性能对比 * CPU运算速度：GHz级别（10^9次/秒） * 内存访问速度：纳秒级别（10^-9秒） * 网络传输速度：Gbps级别

数仓知识点

【真题集锦】百度数仓面试题

1. 项目中为什么考虑用两个平台来做？ 2. 为什么你们白天做实时，晚上做离线，白天有离线任务吗？晚上有实时任务吗？ 3. 你们两个平台统计的指标有什么不同，你们数据量多大？ 4. 有多少表？ 5. 表都存在hive里吗？ 6. 实时数据存在哪里？ 7. 解释下ODS，DWD等数据分层？ 8.

百度数仓面试题

💡 Spark的提交任务流程？原理？ 🚀 实习项目中你是采取的是什么模式去提交的？ ⚙️ 怎么配置Executor？ 📝 你了解Spark的一些配置吗？ 🔄 TaskManager和Executor的区别？ 💾 写入MySQL怎么做？方式？ 📖 知识图谱中常见的查询命令？ 🗄️ 除了Neo4j图形数据库，还了解其他数据库吗？ 💻 有用Java用过UDF吗？ 🧩 UDF类型？ HashMap的底层结构？ 🌳 链表+红黑树有了解吗？为什么需要这样设计？ ⚡ Spark和MR区别？ 💽 MR写磁盘会排序吗？ 🔁 Map阶段到Reduce阶段发生了什么？

面经

MapReduce Shuffle机制详解

【问答专栏】第一期

Hadoop数据仓库知识点整理

【真题集锦】百度数仓面试题

百度数仓面试题

字节数仓面试题目

淘天数仓（2面）

[数据仓库面试题] 精炼和内容增强