Hadoop 教程(五)yarn-架构解析
Yarn 资源调度器 Yarn 是 Hadoop 生态中的资源管理和任务调度平台,负责在集群中协调分布式程序对硬件资源的使用。可以把 Yarn 理解为一层运行在物理服务器之上的“分布式操作系统”,而 MapReduce、Spark 等计算程序则是运行在这套操作系统之上的应用。这一章将介绍 Yarn 的基本架构、工作机制、作业提交流程以及几种常用的调度算法。
Yarn 资源调度器 Yarn 是 Hadoop 生态中的资源管理和任务调度平台,负责在集群中协调分布式程序对硬件资源的使用。可以把 Yarn 理解为一层运行在物理服务器之上的“分布式操作系统”,而 MapReduce、Spark 等计算程序则是运行在这套操作系统之上的应用。这一章将介绍 Yarn 的基本架构、工作机制、作业提交流程以及几种常用的调度算法。
待更新ing
1 MapReduce 概述 1.1 MapReduce 的定义 MapReduce 是 Google 在 2004 年提出的一种 分布式计算框架,核心思想是把大任务拆分成很多小任务,交由多台普通服务器并行处理,最后再汇总结果。 在 Hadoop 中,
1 HDFS 的数据流 1.1 HDFS 写数据流程 在 HDFS 中,文件写入并不是像单机文件系统那样“一次落盘”,而是一个涉及 客户端 → NameNode → 多个 DataNode 的协作过程。HDFS 会把大文件切分成若干
1.Hadoop是什么 Hadoop 是 Apache 基金会推出的一套 开放源码的分布式系统基础设施。它通过普通硬件组成的计算机集群提供分布式存储和计算能力,使得用户能够在廉价的服务器上处理海量数据。狭义上的 Hadoop 指其核心项目:HDFS、YARN 和 MapReduce;广义上还包括围绕这三大核心项目形成的大数据生态系统 2.Hadoop的特点 Hadoop
《大数据之路》 大数据之路 大数据之路:阿里巴巴大数据实践大数据之路:阿里巴巴大数据实践.pdf98 MBdownload-circle 《Leetcode精讲 200 题.pdf》 Leetcode精讲 200 题Leetcode精讲 200 题.pdf25 MBdownload-circle
Hadoop 简介 Hadoop 是 Apache 基金会的开源大数据框架,用来在普通商用硬件上构建分布式集群,实现对海量数据的存储和计算。 它的设计核心思想是:让计算移动到数据所在位置,而不是传输数据到计算程序。 对于校招生来说,Hadoop 是大数据领域的入门必备技能,在简历和面试中经常被问到。 Hadoop 1.x vs 2.
第一卷:Hadoop 简介与版本演进 1. Hadoop 简介 📌 Hadoop 是什么? Hadoop 是一个由 Apache 基金会维护的开源大数据框架,专门解决 海量数据的分布式存储与并行计算。 它的设计目标是: * ✅ 通过普通商用服务器(低成本硬件)搭建集群 * ✅ 提供容错能力(节点宕机不影响整体运行)
在数据仓库与大数据时代,掌握 SQL 是成为进入数据开发岗位的基础技能。数据仓库(Data Warehouse)是一种专门用于存储大量历史数据以支持分析的系统,而 SQL(Structured Query Language)则是与数据库对话的标准语言,用于查询、插入、更新和删除数据。对于从事数仓、数据开发的工程师来说,熟练使用
快速找到数仓工作的学习路线 对于想要快速进入数仓/数据开发岗位的在校大学生来说,学习必须有节奏、有重点。 本路线分为 三大阶段,既覆盖 大数据组件与数仓基础,又兼顾 编程与算法,最后再进入 简历优化 + 面试冲刺。 每个阶段都配套推荐文章,方便你逐步补齐。 📖阶段结构与学习节奏安排 时间只能作为一个参考,真正为面试准备的时间可能更短 阶段
学习 SQL 时,连接(Join)和窗口函数(Window Function)是进阶阶段必须掌握的内容。连接用于将多张表按逻辑关系组合;窗口函数则能对分组后的数据进行排名、累计求和等分析。在校招面试中,这两类题型出现频率非常高。本文将梳理常见的连接方式,介绍窗口函数的基本概念与常用函数,并给出典型面试题思路,帮助你夯实基础、应对面试。 1
1 介绍自己,讲几个你熟悉的项目 2 数据倾斜怎么处理 3 spark的宽窄依赖 4 数仓模型分层 分层有啥好处 5 有了解过画像吗,自己怎么实现的,有运用算法吗 6 数仓数据质量监控和数据治理怎么实现 7 有做过实时吗,实时怎么实现数据不延迟,如果稳定可靠产出实时指标
快速理解大宽表
三个月的数据开发实习刚结束,从刚开始的一脸懵逼到现在能独立处理复杂的数据任务,真的是成长了不少。这周刚通过了转正答辩,拿到了offer,秋招也收到了几家大厂的面试邀请。很多学弟学妹问我怎么总结实习经历,怎么在答辩和面试中表现出色,今天就把我的方法分享给大家。 不是教你包装吹牛,而是教你怎么把真实的实习经历用最有效的方式展现出来,让面试官看到你的真实价值。 实习总结的核心思路:别把实习当成做任务,要当成能力建设 很多同学实习结束后,总结就是"我做了A任务、B任务、
175. 组合两个表 SQL LEFT JOIN 完整解题教程 📋 原题 题目: 编写解决方案,报告 Person表中每个人的姓、名、城市和州。如果 personId的地址不在 Address表中,则报告为null。以任意顺序返回结果表。 表结构 表:
刚刚结束实习答辩,成功拿到转正offer,回想起这几个月的准备过程,有太多经验想和大家分享。很多同学私信问我转正到底看什么,答辩怎么准备,今天就把我的经验毫无保留地分享出来。 转正到底看什么?别被表面功夫迷惑 很多人以为转正就是走个过场,或者觉得平时表现好就够了。但实际上,公司考察的远比你想象的深入。 技术能力是硬指标 不是说你会用框架就行,而是要真正理解原理。我在答辩时被问到Spark为什么比MapReduce快,如果只知道"内存计算&
问题现象 做数仓的同学肯定都遇到过这种情况: -- 这个SQL能跑死人,2小时还在执行 SELECT count(distinct user_id) FROM user_behavior_log WHERE dt = '2024-01-01'; --
我是如何用AI刷爆技术面试的 最近发现个神器,OpenAI又搞了个学习模式,不光ChatGPT,Claude、Gemini这些都有了。说白了就是AI不再只是等你问,而是会主动抛问题,就像个面试官一样怼你。 作为一个刚经历完秋招的人,我必须说,这玩意儿真的太好用了。 先说简历这档子事 以前改简历,要么自己瞎改,要么花钱找人。现在直接把简历丢给AI: "我简历上写了Flink实时处理,你觉得面试官会问啥?
在大数据面试、工作中,很多人一听到“数据倾斜”就脱口而出“加并行度!”但真相到底如何?其实,加并行度只对部分情况有效,根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇 分场景分析(+举例) 1. 轻度数据倾斜:并行度可以缓解 * 解释:如果只是部分 key 的数据量稍微大一些,
作为一个准备校招的同学,如果你还不会解决连续登录问题,那真的要抓紧了!这个问题在各大厂的面试中出现频率超高,特别是字节、阿里、腾讯这些互联网公司,几乎是必考题。 今天就来彻底搞懂这个经典问题,保证看完就能手撕代码,面试官问到直接秒杀! 为什么连续登录问题这么重要? 想象一下这个场景:你刚入职实习,产品经理找到你说:"小李啊,帮我分析一下用户粘性,看看连续登录超过7天的用户有多少,他们的行为特征是什么?
小结 今天咱们来好好聊聊ETL开发和数据开发这两个“兄弟”,它们听起来有点像,但其实各有各的“绝活”!简单来说,ETL(抽取、转换、加载)开发就是数据处理流水线上的一个关键环节,专门负责把数据从各种“角落”里捞出来,给它“洗洗澡,整整容”,然后送到该去的地方。而数据开发呢,
概述 在企业数字化转型过程中,数据仓库作为支撑业务决策的重要基础设施,承载着海量的业务数据。然而,如果将所有数据都放在一个层级中处理,就像把生产车间、仓储区和展示厅混在一起,必然会造成混乱。因此,数据仓库需要分层设计,就像建造一栋大楼需要设计不同的楼层一样,每一层都有其特定的功能和作用。 典型的数据仓库分层架构 根据数据处理的逻辑步骤,典型的数据仓库分为以下几个层次: 1. ODS层(原始数据层) 功能定位:
1. 简述什么是Spark ? Spark 是一个开源的大数据处理框架,它被设计来进行高速度、通用性和易用性的大规模数据处理。Spark 最初由加州大学伯克利分校的AMPLab 开发,后来成为Apache软件基金会的顶级项目。 Spark 的主要特点包括: 1. 快速性:Spark 使用了内存计算技术,相较于Hadoop的MapReduce,它能更快地处理大规模数据集。这是因为MapReduce在数据处理过程中频繁地将中间结果写入磁盘,而Spark尽可能地将数据保留在内存中处理,
什么是Shuffle? Shuffle是MapReduce框架中最核心也是最复杂的阶段,它发生在Map阶段和Reduce阶段之间。简单来说,Shuffle就是将Map任务的输出数据重新分发给相应的Reduce任务的过程。 为什么需要Shuffle? 想象一个词频统计的场景: * 多个Map任务处理不同的文档片段,每个Map都会输出(word, count)键值对 * 但同一个单词可能出现在不同的Map输出中 * 我们需要将相同key的数据汇聚到同一个Reduce任务中进行合并计算 这就是Shuffle存在的意义:数据的重新分发和聚合。 Shuffle的详细流程 1. Map端的Shuffle(Map-side