面经

1 先进行自我介绍
2 说一下离职原因
3 目前主要做的什么业务目前你们这边都有啥业务过程4 平时工作中有没有遇到数据倾斜，怎么实际处理的，除了这种方式5 看你做了实时，实时任务用的啥平台和技术6 olap引擎索引有哪些，平时用的最多的是哪个
7 做个题目，将连续登录3天起步的商户找到
8 有什么要找我这边了解的

参考答案

1）先进行自我介绍

考察知识点

职业定位与与目标岗位的匹配度（LBS/出行/地图业务理解）
端到端数据能力（采集→建模→存储→开发→质量→服务化→治理→成本）
实时/离线一体化与OLAP经验（Flink/Spark/ClickHouse/StarRocks/Doris 等）
工程化（CI/CD、容器化、监控告警、稳定性）与可量化成果

参考回答（第一人称模板）

大家好，我叫XXX，目前在XX公司担任大数据开发工程师第X年，主要负责实时/离线一体化数仓与数据服务。我过往的工作聚焦在高并发日志采集、实时指标计算、OLAP 查询加速以及数据治理四个方面：

数据链路：
- 采集：基于 Kafka +（Fluent Bit/Logtail/Canal/CDC） 打通 App 埋点、服务日志、Binlog 变更。
- 实时计算：使用 Flink SQL 与 DataStream 结合，事件时间、水位线、会话/滚动窗口，Exactly-once（Kafka 事务+Checkpoint），状态后端 RocksDB；典型场景为实时画像、风控规则、流量监控、在线特征。
- 离线计算：SparkSQL/Spark 结构化构建 DWD/DWS/ADS 分层，明细层存储 Hudi/Iceberg 便于增量合并，批流拉通。
- OLAP 服务：ClickHouse/StarRocks 建立宽表、物化视图与索引（Zone Map/Bitmap/Bloom/Inverted），支撑 <1s 查询延迟的多维分析与看板。
数据治理与质量：统一元数据（DataHub/Atlas）、血缘、指标口径一致性（统一度量规范）、数据质量（Schema 演进、准入校验、DQC 规则）、成本优化（冷热分层、压缩编码、物化视图刷新策略）。
可量化成果（示例）：
- 支撑日均 >XX TB 日志写入，实时链路端到端 p99 1.5s；
- 通过主键去重+分桶排序+物化视图，将核心 OLAP 查询 平均耗时降低 62%；
- 引入 Hudi MOR 增量，批任务窗口缩短 35%，资源成本下降 30%。
与高德的匹配：我对LBS/出行场景非常感兴趣，特别是POI/路线规划/ETA/实时路况背后的数据建模与时空计算；过去两年我也做了地理网格化（GeoHash/QuadKey）、位置去噪与轨迹切分等专题，对高频时空数据的异常与倾斜治理有实践。

补充回答/注意要点（核心信息与关键维度）

用项目-指标-影响三句话结构：做了什么→怎么做→带来什么量化提升。
明确“和高德的业务契合点”：时空特征、流量峰谷、强实时、低延迟 OLAP。
突出稳定性工程（回滚/限流/Retry/双写/灰度/演练）与治理（指标口径、血缘、DQC）。
不必面面俱到，挑 2-3 个亮点展开细节（可追问时继续扩展）。

2）说一下离职原因

考察知识点

动机是否正向、是否避免负面评价
与目标公司的发展方向匹配（业务规模/技术栈/成长空间）
职业发展规划是否清晰（T 字型：纵深+横向）

补充回答/注意要点

不抱怨原公司或个人，避免负面。
强调面向挑战与成长，与高德场景强相关。
若涉及组织调整/地域变动，可轻描淡写为“客观变动+自己选择更匹配方向”。

3）目前主要做的什么业务？你们这边都有啥业务过程？

考察知识点

端到端业务流程梳理能力（需求→埋点→采集→建模→开发→服务→运营）
分层建模（ODS/DWD/DWS/ADS/DM）、指标治理与数据服务化
对实时+离线闭环与成本、质量、稳定性的均衡思维

参考回答（第一人称模板）

以我最近的“实时出行画像与监控看板”为例，业务流程与数仓过程如下：

1）需求与指标设计

目标：实时洞察用户出行链路（搜索→选点→路线→导航→到达），构建 DAU、搜索转化、路线成功率、导航开始次数、ETA 偏差等指标。
口径：定义唯一身份规则、会话规则（30 分钟无操作重置）、异常判定、迟到数据 T+1 回补策略。
指标一体化：实时与离线口径一致，通过统一维表 & 统一计算范式（拉链/增量）保证一致性。

2）数据采集与准入

App 埋点/服务日志/埋点平台 → Kafka 分区写入（多集群容灾）；
Binlog → Canal/CDC → Kafka（Schema Registry），超时/失败重投；
准入：Schema 校验、脏数据旁路、DV（唯一键/取值域/必填项）检查。

3）实时计算（Flink）

Watermark 与去重（同一用户同一天多次登录去重规则）；
窗口：滚动 1m/5m/1h，聚合 PV/UV、转化率；
侧输出用于异常事件与迟到数据；
状态管理（RocksDB、State TTL），Exactly-once 语义（Kafka 事务 + Checkpoint）；
维表 Join：本地维表 + HBase/Redis/StarRocks 外表，Cache + Async I/O。

4）离线计算（Spark / Flink Batch）

明细层 DWD：主键去重、字段标准化；
汇总层 DWS：按天/小时聚合，拉链表维护；
Hudi/Iceberg 管理增量与分区，支持 Upsert 与 ChangeLog。

5）OLAP/服务化

StarRocks/ClickHouse 承载宽表与指标视图，建 Zone Map、Bitmap/Bloom、Inverted（视字段类型）；
物化视图 + 分区刷新，支持多看板低延迟查询；
对外：Data Service/API/Presto/Trino 提供自助查询与服务接口。

6）治理/稳定性/成本

元数据与血缘（DataHub/Atlas）、指标字典（统一口径）；
DQC（行数、空值率、分布漂移、对账），异常自动告警；
成本：冷热分层、压缩编码（ZSTD/LZ4）、分区裁剪、物化视图增量刷新；
稳定性：限流降级、灰度发布、双活/跨 AZ 容灾、定期演练。

补充回答/注意要点

画出链路（口述即可）：“源→Kafka→Flink/Spark→Hudi/Iceberg→StarRocks/ClickHouse→Data/API”。
强调一致性与回补策略、数据质量闭环与成本治理。
可替换为你的“广告/支付/本地生活/风控”等场景，但过程维度尽量齐全。

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

Subscribe Now

Already have an account? Sign In

高德（阿里）大数据开发 2025 年 9 月

面经

参考答案

1）先进行自我介绍

考察知识点

参考回答（第一人称模板）

2）说一下离职原因

考察知识点

补充回答/注意要点

3）目前主要做的什么业务？你们这边都有啥业务过程？

考察知识点

参考回答（第一人称模板）

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

About Author

Sponsored Ad

Read Next

小万和大树知识成长营地

高频SQL题

小万和大树知识成长营地

数据仓库八股

面经

参考答案

1）先进行自我介绍

考察知识点

参考回答（第一人称模板）

2）说一下离职原因

考察知识点

补充回答/注意要点

3）目前主要做的什么业务？你们这边都有啥业务过程？

考察知识点

参考回答（第一人称模板）

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

About Author

Sponsored Ad

Read Next

小万和大树知识成长营地

高频SQL题

小万和大树知识成长营地

数据仓库八股

学姐带你披荆斩棘：直通大厂央企的人脉引路人