小万的知识成长营地

PySpark Streaming 技术详解手册 (DStream & Structured)

海外DE

PySpark MLlib (Machine Learning) 技术详解手册

海外DE

Spark SQL手册

海外DE

PySpark DataFrame 手册

如需购买海外DE 资料，请联系小万VX （qgm226131）

海外DE

PySpark RDD 技术详解手册

如需购买海外DE资料请联系小万来了VX (qgm226131)

海外DE

Docker 使用指南

如需购买请联系小万VX(qgm226131)

Git 使用指南

如需会员请联系小万 vx（qgm226131）

如何编写处理数十亿行的 SQL 查询。

『数仓场景题』13个亿级数据实战场景场景的避坑指南

数仓场景题八股

SQL 分析函数面试题

1. SQL 分析函数与聚合函数 2. 分析函数语法 3. 计算各部门工资总额 4. 计算各部门工资累计总额 5. 计算组织的累计总和 6. 计算各部门工资的累计平均值 7. 计算当前和先前各部门的平均工资。 8. 使用 LAG 分析函数找出各部门中最老的入职员工 9. 使用 LAG 分析函数按部门查找最新入职员工 10. 使用 LEAD 分析函数，按部门查找入职时间最长的员工。。。

SQL

高级 SQL 面试题

1. 编写 SQL 查询语句，生成亚洲杯板球比赛赛程。来源：源表Teams由一列Country组成，其中包含参加亚洲杯的国家/地区列表。 CREATE TABLE TEAMS( COUNTRY VARCHAR(50) ); INSERT INTO TEAMS VALUES('

SQL

PART 4： System Design

PART 3: Lakehouse

新手如何学习阿里《大数据之路》

大数据之路：阿里巴巴大数据实践大数据之路：阿里巴巴大数据实践.pdf98 MBdownload-circle 写在前面如果你是刚想踏入大数据领域的初学者，大概率会遇到这些困惑： * 面对 “大数据开发” 的概念总觉得抽象，不知道自己 “为什么要学”； * 翻《大数据之路》时被满书的章节绕晕，分不清 “先看哪章、哪些是重点”； * 收集了一堆学习资料，

book

Leetcode精讲 200 题

点击下面下载

book

高频SQL题

1. 每日 UV（独立用户数）业务意义: 每日UV是衡量平台用户规模与吸引力的核心指标，直观反映每日不同用户访问量。核心价值：1. 追踪用户增长趋势，判断平台用户基数变化；2. 评估营销活动效果，如促销活动带来的新用户访问量；3. 为电商等平台的商品推广、运营策略调整提供数据支撑。实现思路: 1. 按访问日期（

SQL

Flink SQL

摘要：SQL 是数据处理领域的“通用语”，但在流计算（Streaming）的世界里，SQL 的语义发生了微妙而深刻的变化。本系列文章旨在帮助开发者从 DataStream API 的“命令式编程”思维切换到 SQL 的“声明式编程”思维。作为上篇，

PART 2： Data Warehouse

PART 1：Data Modeling

海外DE

Kafka常见问题

待更新ing

高级特性与性能优化

待更新ing

消费者（Consumer）机制

待更新ing

生产者（Producer）机制

第一章：宏观架构——双线程异步模型理解 Producer 的关键在于理解它的异步本质。send() 方法的调用仅仅是将消息写入了客户端的内存缓冲区，而非立即通过网络发送。 Producer 内部主要由两个核心线程协同工作： 1. Main Thread（主线程）：业务线程。负责消息的拦截（Interceptors）、序列化（Serializer）

Topic,Partition与存储机制

Topic、Partition 和 Log 到底是怎么转的。

Kafka 基础架构与原理详解

Kafka 是现代数据栈（Modern Data Stack）中处理流数据的标准基础设施。对于数据工程师而言，掌握 Kafka 的 API 仅仅是入门，理解其底层的 Log（日志）结构、物理存储设计以及 IO 模型，才是解决生产环境性能瓶颈的关键。本文将从逻辑架构到物理落地，对其进行全方位的拆解。