小万和大树知识成长营地 (Page 5)

初学者做 SSG 项目：3 个真实痛点拆解 + 落地方案（附简历模板 + 面试话术 + 场景案例）

很多大数据开发初学者做完 SSG 电商离线数仓项目后，都会卡在三个特别具体的坎上： 1. 不知道怎么写简历—— 对着自己做过的操作，只会列 “用 Hive 建了 3 层表”“用 Spark 算过复购率”，没说清这些操作有什么用，写出来的内容像 “技术清单”，面试官扫一眼就过；

Hadoop 教程（五）yarn-架构解析

Yarn 资源调度器 Yarn 是 Hadoop 生态中的资源管理和任务调度平台，负责在集群中协调分布式程序对硬件资源的使用。可以把 Yarn 理解为一层运行在物理服务器之上的“分布式操作系统”，而 MapReduce、Spark 等计算程序则是运行在这套操作系统之上的应用。这一章将介绍 Yarn 的基本架构、工作机制、作业提交流程以及几种常用的调度算法。

Hadoop 教程（三）mapreduce介绍

1 MapReduce 概述 1.1 MapReduce 的定义 MapReduce 是 Google 在 2004 年提出的一种分布式计算框架，核心思想是把大任务拆分成很多小任务，交由多台普通服务器并行处理，最后再汇总结果。在 Hadoop 中，

Hadoop 教程（二）HDFS 架构解析（详解版）

1 HDFS 的数据流 1.1 HDFS 写数据流程在 HDFS 中，文件写入并不是像单机文件系统那样“一次落盘”，而是一个涉及客户端 → NameNode → 多个 DataNode 的协作过程。HDFS 会把大文件切分成若干

Hadoop 教程（一）hadoop介绍

1.Hadoop是什么 Hadoop 是 Apache 基金会推出的一套开放源码的分布式系统基础设施。它通过普通硬件组成的计算机集群提供分布式存储和计算能力，使得用户能够在廉价的服务器上处理海量数据。狭义上的 Hadoop 指其核心项目：HDFS、YARN 和 MapReduce；广义上还包括围绕这三大核心项目形成的大数据生态系统 2.Hadoop的特点 Hadoop

书籍资源

《大数据之路》大数据之路大数据之路：阿里巴巴大数据实践大数据之路：阿里巴巴大数据实践.pdf98 MBdownload-circle 《Leetcode精讲 200 题.pdf》 Leetcode精讲 200 题Leetcode精讲 200 题.pdf25 MBdownload-circle

『问题集锦』Hadoop 相关问题

Hadoop 简介 Hadoop 是 Apache 基金会的开源大数据框架，用来在普通商用硬件上构建分布式集群，实现对海量数据的存储和计算。它的设计核心思想是：让计算移动到数据所在位置，而不是传输数据到计算程序。对于校招生来说，Hadoop 是大数据领域的入门必备技能，在简历和面试中经常被问到。 Hadoop 1.x vs 2.

Hadoop 入门与核心概念

第一卷：Hadoop 简介与版本演进 1. Hadoop 简介 📌 Hadoop 是什么？ Hadoop 是一个由 Apache 基金会维护的开源大数据框架，专门解决海量数据的分布式存储与并行计算。它的设计目标是： * ✅ 通过普通商用服务器（低成本硬件）搭建集群 * ✅ 提供容错能力（节点宕机不影响整体运行）

SQL 基础入门与数据库基础知识总结

在数据仓库与大数据时代，掌握 SQL 是成为进入数据开发岗位的基础技能。数据仓库（Data Warehouse）是一种专门用于存储大量历史数据以支持分析的系统，而 SQL（Structured Query Language）则是与数据库对话的标准语言，用于查询、插入、更新和删除数据。对于从事数仓、数据开发的工程师来说，熟练使用

快速找到数仓工作的学习路线

快速找到数仓工作的学习路线对于想要快速进入数仓/数据开发岗位的在校大学生来说，学习必须有节奏、有重点。本路线分为三大阶段，既覆盖大数据组件与数仓基础，又兼顾编程与算法，最后再进入简历优化 + 面试冲刺。每个阶段都配套推荐文章，方便你逐步补齐。 📖阶段结构与学习节奏安排时间只能作为一个参考，真正为面试准备的时间可能更短阶段

高阶 Join 与窗口函数实战——面向校招生的 SQL 技术指南

学习 SQL 时，连接（Join）和窗口函数（Window Function）是进阶阶段必须掌握的内容。连接用于将多张表按逻辑关系组合；窗口函数则能对分组后的数据进行排名、累计求和等分析。在校招面试中，这两类题型出现频率非常高。本文将梳理常见的连接方式，介绍窗口函数的基本概念与常用函数，并给出典型面试题思路，帮助你夯实基础、应对面试。 1

SQL

三个月的数据开发实习刚结束，从刚开始的一脸懵逼到现在能独立处理复杂的数据任务，真的是成长了不少。这周刚通过了转正答辩，拿到了offer，秋招也收到了几家大厂的面试邀请。很多学弟学妹问我怎么总结实习经历，怎么在答辩和面试中表现出色，今天就把我的方法分享给大家。不是教你包装吹牛，而是教你怎么把真实的实习经历用最有效的方式展现出来，让面试官看到你的真实价值。实习总结的核心思路：别把实习当成做任务，要当成能力建设很多同学实习结束后，总结就是"我做了A任务、B任务、

面试经验

[SQL]175. 组合两个表

175. 组合两个表 SQL LEFT JOIN 完整解题教程 📋 原题题目：编写解决方案，报告 Person表中每个人的姓、名、城市和州。如果 personId的地址不在 Address表中，则报告为null。以任意顺序返回结果表。表结构表:

SQL

实习期间如何成功转正——从准备到答辩的全攻略

刚刚结束实习答辩，成功拿到转正offer，回想起这几个月的准备过程，有太多经验想和大家分享。很多同学私信问我转正到底看什么，答辩怎么准备，今天就把我的经验毫无保留地分享出来。转正到底看什么？别被表面功夫迷惑很多人以为转正就是走个过场，或者觉得平时表现好就够了。但实际上，公司考察的远比你想象的深入。技术能力是硬指标不是说你会用框架就行，而是要真正理解原理。我在答辩时被问到Spark为什么比MapReduce快，如果只知道"内存计算&

数仓知识点

大数据八股｜Hive的count(distinct)为什么慢

问题现象做数仓的同学肯定都遇到过这种情况： -- 这个SQL能跑死人，2小时还在执行 SELECT count(distinct user_id) FROM user_behavior_log WHERE dt = '2024-01-01'; --

数仓知识点

用AI准备面试：从简历优化到知识点掌握

我是如何用AI刷爆技术面试的最近发现个神器，OpenAI又搞了个学习模式，不光ChatGPT，Claude、Gemini这些都有了。说白了就是AI不再只是等你问，而是会主动抛问题，就像个面试官一样怼你。作为一个刚经历完秋招的人，我必须说，这玩意儿真的太好用了。先说简历这档子事以前改简历，要么自己瞎改，要么花钱找人。现在直接把简历丢给AI： "我简历上写了Flink实时处理，你觉得面试官会问啥？

数仓知识点

增加并行度可以解决数据倾斜吗？

在大数据面试、工作中，很多人一听到“数据倾斜”就脱口而出“加并行度！”但真相到底如何？其实，加并行度只对部分情况有效，根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇 分场景分析（+举例） 1. 轻度数据倾斜：并行度可以缓解 * 解释：如果只是部分 key 的数据量稍微大一些，

数仓知识点

校招必备！SQL连续登录问题完全攻略 - 窗口函数从入门到精通

作为一个准备校招的同学，如果你还不会解决连续登录问题，那真的要抓紧了！这个问题在各大厂的面试中出现频率超高，特别是字节、阿里、腾讯这些互联网公司，几乎是必考题。今天就来彻底搞懂这个经典问题，保证看完就能手撕代码，面试官问到直接秒杀！为什么连续登录问题这么重要？想象一下这个场景：你刚入职实习，产品经理找到你说："小李啊，帮我分析一下用户粘性，看看连续登录超过7天的用户有多少，他们的行为特征是什么？

SQL

深入理解：ETL开发与数据开发到底有啥区别？

小结今天咱们来好好聊聊ETL开发和数据开发这两个“兄弟”，它们听起来有点像，但其实各有各的“绝活”！简单来说，ETL（抽取、转换、加载）开发就是数据处理流水线上的一个关键环节，专门负责把数据从各种“角落”里捞出来，给它“洗洗澡，整整容”，然后送到该去的地方。而数据开发呢，

数仓知识点

数据仓库为什么要分层

概述在企业数字化转型过程中，数据仓库作为支撑业务决策的重要基础设施，承载着海量的业务数据。然而，如果将所有数据都放在一个层级中处理，就像把生产车间、仓储区和展示厅混在一起，必然会造成混乱。因此，数据仓库需要分层设计，就像建造一栋大楼需要设计不同的楼层一样，每一层都有其特定的功能和作用。典型的数据仓库分层架构根据数据处理的逻辑步骤，典型的数据仓库分为以下几个层次： 1. ODS层（原始数据层）功能定位：

数仓知识点