DE - 小万和大树知识成长营地

Flink 状态管理深度解析

摘要：本系列文章旨在全面剖析 Apache Flink 的状态管理机制。作为上篇，本文将深入底层，探讨 Flink 为何能成为有状态流计算的王者。我们将详细拆解状态的内存模型、Key Group 的扩缩容算法、不同状态后端的物理存储差异，以及支撑 Flink 容错核心的 Chandy-Lamport 算法变体。

data engineer DE hive

Spark 极致性能调优：内核、AQE与实战手册

Spark 性能调优的本质是消除瓶颈，而瓶颈的消除效果是分层次的。一个错误的架构或算法，即使配置了顶级的资源，其性能也远不如使用正确算法配合普通配置的作业。我们将调优层次划分为三个重要级别： 1. 架构与算法层 (最高效，影响 80%)： * 优化：重写 RDD/DataFrame 逻辑，采用更高效的数据结构。 * 核心：消除数据倾斜（

data engineer DE spark

Spark Streaming：流式计算的经典应用与深度实践

引言：流处理的微批次革命在大数据处理的演进史上，Apache Spark Streaming 占据着承前启后的重要地位。在它出现之前，Hadoop MapReduce 定义了离线批处理的标准，而 Apache Storm 则引领了低延迟的逐条流处理。然而，企业在实际应用中发现，维护两套技术栈（Lambda 架构）

data-warehouse-interview data engineer DE

在 Hadoop 集群调优 Hive

引言 Hive 在数据仓库中的核心作用与调优必要性 Hive 作为 Hadoop 生态系统中的核心数据仓库工具，提供了一种用户友好的 SQL-like 查询语言（HiveQL 或 HQL），将结构化查询转换为底层计算框架的任务执行计划，支持 PB 级海量数据的存储、查询和分析。在 Hadoop

DE Data Warehouse data engineer