目标:在一台 Ubuntu 服务器上,快速搭建一个“类 Databricks”的教学环境:对象存储:MinIO(S3 兼容)元数据:Hive Metastore(PostgreSQL)计算:Spark Standalone(Master/Worker)+ Delta Lake验证:写入/读取 Delta 表与简单 ETL
mac 可用

0. 环境与前置(5 分钟)
0.1 最低配置
- OS:Ubuntu 20.04/22.04+
- 资源:2 vCPU+4GB RAM(越多越好)
- 需要放行的端口(安全组):9000(S3 API) / 9001(MinIO 控制台) / 5432(Postgres) / 9083(Metastore) / 7077(Spark Master) / 8080(Master UI) / 8081(Worker UI)
0.2 一键检查(复制执行)
# 基础信息
uname -a
lsb_release -a 2>/dev/null || cat /etc/os-release
nproc && free -h
# Docker / Compose
docker --version || echo "NO_DOCKER"
docker compose version || echo "NO_COMPOSE"
# 端口是否被占(有输出说明占用)
ss -lntp | egrep ':9000|:9001|:5432|:9083|:7077|:8080|:8081' || echo "ports free"
确保您已安装 Docker 和 Docker Compose
如果 Docker 或 Compose 缺失,安装:
sudo apt update -y
sudo apt install -y docker.io docker-compose-plugin
sudo usermod -aG docker $USER
newgrp docker