小万和大树知识成长营地 (Page 3)

详解Yarn基础架构及其设计思想

1.Hadoop Yarn 目录组织结构 * YARN API（hadoop-yarn-api 目录）：给出了 YARN 内部涉及的 4 个主要 RPC 协议的 Java 声明和 Protocol Buffers 定义，

随着公司希望从数据中获取更多信息，数据工程师的需求量如此之大也就不足为奇了。在当今快节奏的数字化环境和人工智能的快速崛起中，数据已成为许多企业的命脉。随着公司依靠数据的力量来推动决策，对熟练数据工程师的需求猛增——以至于它被列入了领英 2023 年新兴职业名单。因此，无论您是经验丰富的数据工程师还是渴望进入该领域，以下是 2023 年最需要的数据工程技能： 11 项最重要的数据工程技能 1.数据基础设施扎实的数据基础设施知识是每个数据工程师岗位的基础。了解数据存储系统、

高级 Spark 编程

Spark 包含两种不同类型的共享变量 - 一种是广播变量，另一种是累加器。 💡广播变量 - 用于有效地分发大值。累加器 - 用于聚合特定集合的信息。广播变量广播变量允许程序员在每台机器上缓存一个只读变量，而无需在任务中传递副本。例如，它们可以高效地为每个节点提供一份大型输入数据集的副本。Spark 还尝试使用高效的广播算法来分发广播变量，以降低通信成本。 Spark

Apache Spark 部署

Spark 应用程序使用 spark-submit 命令，用于在集群上部署 Spark 应用程序。它通过统一的接口使用所有相应的集群管理器。因此，您无需为每个集群管理器配置应用程序。例子让我们使用之前使用过的 Shell 命令来举例，进行字数统计。这里，我们将其视为一个 Spark 应用程序。示例输入

Apache Spark 核心编程

Spark Core 是整个项目的基础。它提供分布式任务调度和基本 I/O 功能。Spark 使用一种称为 RDD（弹性分布式数据集）的专用基础数据结构，它是跨机器分区的数据的逻辑集合。RDD 可以通过两种方式创建：一是引用外部存储系统中的数据集；二是对现有 RDD 应用转换（例如

Apache Spark 安装

步骤 1：验证 Java 安装 Java 安装是安装 Spark 的必需步骤之一。请尝试以下命令来验证 JAVA 版本。 $java -version 如果您的系统上已经安装了 Java，您将看到以下响应 - java version

Apache Spark RDD

弹性分布式数据集 RDD（弹性分布式数据集）是 Spark 的基础抽象：它是只读、不可变的分区化集合，数据分布在集群的不同节点上，可被并行处理。RDD 支持两类操作： * Transformation（转换）：基于现有 RDD 描述新的 RDD（惰性，不立刻执行）

Apache Spark 介绍

各行各业都在广泛使用 Hadoop 来分析其数据集。原因在于 Hadoop 框架基于简单的编程模型（MapReduce），能够提供可扩展、灵活、容错且经济高效的计算解决方案。这里主要关注的是处理大型数据集时保持速度，包括查询之间的等待时间和运行程序的等待时间。 Spark 由 Apache 软件基金会推出，用于加速 Hadoop 计算软件的运行过程。与普遍的看法相反，

Spark Shuffle 机制详解

系统化、易理解的方式讲清 Shuffle 的原理—实现—调优—排错—实战全链路；

Join 策略与优化（BHJ/SMJ/SHJ + AQE）

面向读者：校招生 / 0–1 年工作经验达成目标： * 搞懂 Broadcast Hash Join / Sort‑Merge Join / Shuffle Hash Join 的原理、触发与适用场景 * 会用 spark.sql.autoBroadcastJoinThreshold 与 Join Hints 影响策略 * 打开 AQE（Adaptive Query Execution）解决倾斜与分区不佳 * 能读懂 EXPLAIN FORMATTED 与 Spark UI 指标；复现可跑实验

高德（阿里）大数据开发 2025 年 9 月

面经 1 先进行自我介绍 2 说一下离职原因 3 目前主要做的什么业务目前你们这边都有啥业务过程4 平时工作中有没有遇到数据倾斜，怎么实际处理的，除了这种方式5 看你做了实时，实时任务用的啥平台和技术6 olap引擎索引有哪些，平时用的最多的是哪个 7 做个题目，将连续登录3天起步的商户找到 8 有什么要找我这边了解的

面经

字节数仓面试题202508

适用于国内，海外求职

面经

「北美Snowflake」面经问题解析和深入回答

Snowflake 面试在考察深度、广度及工程经验上都较为全面。总结了三大主要问题及其考察点，并给出了详细的参考答案和答题要点提示。通过理解三层架构及其优势、掌握针对大数据查询的优化策略、熟悉实时数据管道设计方案，并准备常见的数据结构和算法题。

面经

虾皮数据开发二面题目附答案202509

题目来源于网络，答案是小万本人整理~

面试答案面试经验面经

Kafka 入门: 分布式消息队列的基本概念

篇全面的技术文章，带你系统性地掌握 Kafka 的核心世界。

RDD 到 DataFrame：理解 Spark 的演进

1. 引言：Spark 演进的核心一步从弹性分布式数据集（RDD, Resilient Distributed Dataset）到 DataFrame/Dataset 的演进，是 Apache Spark 发展史上最关键的变革之一。这一转变不仅是 API 的简单升级，

Flink 的时间语义与窗口机制详解

1. 引言：驾驭数据流的时间维度 1.1 流处理的核心挑战在无界数据流（Unbounded Data Streams）的世界中，数据永不停歇，事件纷至沓来。这种连续性带来了独特的挑战：单个数据点往往意义有限，其价值必须在特定的上下文中才能显现。而“时间”，正是赋予数据上下文和意义的关键维度。无论是统计一分钟内的交易额，

京东-零售-二面附答案202508

1. 深深深挖简历 -— 答案略 2. 14亿数据，uid，amt金额，全局排序思路:金额中位数分区，金额分区 3. 英文文章，统计a的次数 4. Java exception 见过吗 5. Hive

面经

Flink 核心理念：有界与无界流

1. 引言：开启流处理新范式 Flink 简介与定位 Apache Flink 是一个为有界和无界数据流提供有状态计算的开源流处理框架。自诞生以来，Flink 凭借其高吞吐、低延迟、高可用性的核心优势，在实时计算领域占据了举足轻重的地位。它不仅仅是一个流处理引擎，更是一种全新的数据处理哲学。核心议题引入要真正理解 Flink 的强大之处，

Spark入门与核心架构: Driver、Executor与 Cluster Manager

1. 引言 (Introduction) 1.1 Spark的诞生与演进在大数据处理的浪潮中，Apache Spark 已成为事实上的标准计算引擎。它最初于2009年在加州大学伯克利分校的AMP实验室诞生，旨在克服传统Hadoop MapReduce框架在迭代计算和交互式数据分析方面的性能瓶颈。MapReduce基于磁盘的计算模型导致了大量的I/O开销，而Spark则通过引入基于内存的计算，将处理速度提升了几个数量级。2014年，Spark成为Apache软件基金会的顶级项目，并凭借其卓越的性能和通用性，