面经
1 先进行自我介绍
2 说一下离职原因
3 目前主要做的什么业务 目前你们这边都有啥业务过程4 平时工作中有没有遇到数据倾斜,怎么实际处理的,除了这种方式5 看你做了实时,实时任务用的啥平台和技术6 olap引擎索引有哪些,平时用的最多的是哪个
7 做个题目,将连续登录3天起步的商户找到
8 有什么要找我这边了解的
参考答案
1)先进行自我介绍
考察知识点
- 职业定位与与目标岗位的匹配度(LBS/出行/地图业务理解)
- 端到端数据能力(采集→建模→存储→开发→质量→服务化→治理→成本)
- 实时/离线一体化与OLAP经验(Flink/Spark/ClickHouse/StarRocks/Doris 等)
- 工程化(CI/CD、容器化、监控告警、稳定性)与可量化成果
参考回答(第一人称模板)
大家好,我叫XXX,目前在XX公司担任大数据开发工程师第X年,主要负责实时/离线一体化数仓与数据服务。我过往的工作聚焦在高并发日志采集、实时指标计算、OLAP 查询加速以及数据治理四个方面:
- 数据链路:
- 采集:基于 Kafka +(Fluent Bit/Logtail/Canal/CDC) 打通 App 埋点、服务日志、Binlog 变更。
- 实时计算:使用 Flink SQL 与 DataStream 结合,事件时间、水位线、会话/滚动窗口,Exactly-once(Kafka 事务+Checkpoint),状态后端 RocksDB;典型场景为实时画像、风控规则、流量监控、在线特征。
- 离线计算:SparkSQL/Spark 结构化构建 DWD/DWS/ADS 分层,明细层存储 Hudi/Iceberg 便于增量合并,批流拉通。
- OLAP 服务:ClickHouse/StarRocks 建立宽表、物化视图与索引(Zone Map/Bitmap/Bloom/Inverted),支撑 <1s 查询延迟的多维分析与看板。
- 数据治理与质量:统一元数据(DataHub/Atlas)、血缘、指标口径一致性(统一度量规范)、数据质量(Schema 演进、准入校验、DQC 规则)、成本优化(冷热分层、压缩编码、物化视图刷新策略)。
- 可量化成果(示例):
- 支撑日均 >XX TB 日志写入,实时链路端到端 p99 1.5s;
- 通过主键去重+分桶排序+物化视图,将核心 OLAP 查询 平均耗时降低 62%;
- 引入 Hudi MOR 增量,批任务窗口缩短 35%,资源成本下降 30%。
- 与高德的匹配:我对LBS/出行场景非常感兴趣,特别是POI/路线规划/ETA/实时路况背后的数据建模与时空计算;过去两年我也做了地理网格化(GeoHash/QuadKey)、位置去噪与轨迹切分等专题,对高频时空数据的异常与倾斜治理有实践。
补充回答/注意要点(核心信息与关键维度)
- 用项目-指标-影响三句话结构:做了什么→怎么做→带来什么量化提升。
- 明确“和高德的业务契合点”:时空特征、流量峰谷、强实时、低延迟 OLAP。
- 突出稳定性工程(回滚/限流/Retry/双写/灰度/演练)与治理(指标口径、血缘、DQC)。
- 不必面面俱到,挑 2-3 个亮点展开细节(可追问时继续扩展)。
2)说一下离职原因
考察知识点
- 动机是否正向、是否避免负面评价
- 与目标公司的发展方向匹配(业务规模/技术栈/成长空间)
- 职业发展规划是否清晰(T 字型:纵深+横向)
补充回答/注意要点
- 不抱怨原公司或个人,避免负面。
- 强调面向挑战与成长,与高德场景强相关。
- 若涉及组织调整/地域变动,可轻描淡写为“客观变动+自己选择更匹配方向”。
3)目前主要做的什么业务?你们这边都有啥业务过程?
考察知识点
- 端到端业务流程梳理能力(需求→埋点→采集→建模→开发→服务→运营)
- 分层建模(ODS/DWD/DWS/ADS/DM)、指标治理与数据服务化
- 对实时+离线闭环与成本、质量、稳定性的均衡思维
参考回答(第一人称模板)
以我最近的“实时出行画像与监控看板”为例,业务流程与数仓过程如下:
1)需求与指标设计
- 目标:实时洞察用户出行链路(搜索→选点→路线→导航→到达),构建 DAU、搜索转化、路线成功率、导航开始次数、ETA 偏差等指标。
- 口径:定义唯一身份规则、会话规则(30 分钟无操作重置)、异常判定、迟到数据 T+1 回补策略。
- 指标一体化:实时与离线口径一致,通过统一维表 & 统一计算范式(拉链/增量)保证一致性。
2)数据采集与准入
- App 埋点/服务日志/埋点平台 → Kafka 分区写入(多集群容灾);
- Binlog → Canal/CDC → Kafka(Schema Registry),超时/失败重投;
- 准入:Schema 校验、脏数据旁路、DV(唯一键/取值域/必填项)检查。
3)实时计算(Flink)
- Watermark 与去重(同一用户同一天多次登录去重规则);
- 窗口:滚动 1m/5m/1h,聚合 PV/UV、转化率;
- 侧输出用于异常事件与迟到数据;
- 状态管理(RocksDB、State TTL),Exactly-once 语义(Kafka 事务 + Checkpoint);
- 维表 Join:本地维表 + HBase/Redis/StarRocks 外表,Cache + Async I/O。
4)离线计算(Spark / Flink Batch)
- 明细层 DWD:主键去重、字段标准化;
- 汇总层 DWS:按天/小时聚合,拉链表维护;
- Hudi/Iceberg 管理增量与分区,支持 Upsert 与 ChangeLog。
5)OLAP/服务化
- StarRocks/ClickHouse 承载宽表与指标视图,建 Zone Map、Bitmap/Bloom、Inverted(视字段类型);
- 物化视图 + 分区刷新,支持多看板低延迟查询;
- 对外:Data Service/API/Presto/Trino 提供自助查询与服务接口。
6)治理/稳定性/成本
- 元数据与血缘(DataHub/Atlas)、指标字典(统一口径);
- DQC(行数、空值率、分布漂移、对账),异常自动告警;
- 成本:冷热分层、压缩编码(ZSTD/LZ4)、分区裁剪、物化视图增量刷新;
- 稳定性:限流降级、灰度发布、双活/跨 AZ 容灾、定期演练。
补充回答/注意要点
- 画出链路(口述即可):“源→Kafka→Flink/Spark→Hudi/Iceberg→StarRocks/ClickHouse→Data/API”。
- 强调一致性与回补策略、数据质量闭环与成本治理。
- 可替换为你的“广告/支付/本地生活/风控”等场景,但过程维度尽量齐全。
This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only
Subscribe NowAlready have an account? Sign In