Lakehouse 实训手册(MinIO + Spark + Delta + Hive Metastore)

目标:在一台 Ubuntu 服务器上,快速搭建一个“类 Databricks”的教学环境:对象存储:MinIO(S3 兼容)元数据:Hive Metastore(PostgreSQL)计算:Spark Standalone(Master/Worker)+ Delta Lake验证:写入/读取 Delta 表与简单 ETL

mac 可用


0. 环境与前置(5 分钟)

0.1 最低配置

  • OS:Ubuntu 20.04/22.04+
  • 资源:2 vCPU+4GB RAM(越多越好)
  • 需要放行的端口(安全组):9000(S3 API) / 9001(MinIO 控制台) / 5432(Postgres) / 9083(Metastore) / 7077(Spark Master) / 8080(Master UI) / 8081(Worker UI)

0.2 一键检查(复制执行)

# 基础信息
uname -a
lsb_release -a 2>/dev/null || cat /etc/os-release
nproc && free -h

# Docker / Compose
docker --version || echo "NO_DOCKER"
docker compose version || echo "NO_COMPOSE"

# 端口是否被占(有输出说明占用)
ss -lntp | egrep ':9000|:9001|:5432|:9083|:7077|:8080|:8081' || echo "ports free"

确保您已安装 Docker 和 Docker Compose

如果 Docker 或 Compose 缺失,安装:

sudo apt update -y
sudo apt install -y docker.io docker-compose-plugin
sudo usermod -aG docker $USER
newgrp docker


阅读全文

注册 立即解锁全文并访问全部文章: 网站会员 and 成为小万的高级会员 tiers 专享.

订阅
已有账号? 登录

小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。