字节数据开发/数据仓库面试二面

实习内容还在职吗
有独立做过需求吗
做过最难的需求是什么
你处理的数据量有多大
有接过实时的需求吗
Flink了解多少
有主动钻研过数据领域的技术吗
保障过SLA基线吗
保障SLA基线要从哪方面着手
生服这么缺人力为什么要跨部门转正呢

场景题

11 如果一周给你定容了三个需求，你会怎么排期呢

12 如果你排期完成后，发现自己判断失误，这个需求在原定排期内做不完，你会怎么办你觉得保障SLA基线最困难的点在哪里

SQL

13 table两个字段 a b 代表了a关注了b写一个SQL找到相互关注的用户（尽量高效）

14 table student_id course score1 语文 78找出单个学科成绩第三名的同学的ID，总成绩和总成绩的全班排名

15 tabledate people2025-08-01 1412025-08-02 35日期是主键，people代表当日人流量找出连续三天人流量>100的date

答案如下

1. 实习内容

考察知识点

实习经历的真实性与细节颗粒度
项目参与深度（是否独立负责模块 / 环节）
技术栈应用能力（如 Hive、Flink、Spark 等工具的落地）
问题解决与结果导向思维

参考回答

我在 XX 公司数据部门实习了 6 个月，核心参与「用户行为分析平台」和「实时交易监控」两个项目，分阶段负责不同工作：

初期（1-2 月）：协助离线数据清洗，用 Hive SQL 处理用户浏览日志（日均 10TB），过滤无效数据（如爬虫请求），优化 SQL 执行效率（将子查询改为 JOIN，执行时间从 40min 缩短至 15min）；
中期（3-5 月）：独立负责「实时交易异常检测」模块，用 Kafka 接入交易流数据，Flink 实时计算单笔订单金额、频次等指标，触发异常阈值（如 1 小时内同一账号下单 > 10 次）时推送告警至业务端，期间解决了 Flink 维表关联冷启动问题（通过预加载小表至本地缓存，延迟从 200ms 降至 50ms）；
后期（6 月）：参与项目复盘，输出数据质量报告（准确率 99.98%，告警响应时间 < 1s），并提出「按用户等级调整异常阈值」的优化建议，已被纳入下一版本迭代。

补充注意要点

避免泛泛而谈（如 “我做了数据处理”），需明确「做什么、用什么技术、遇到什么问题、怎么解决、有什么结果」；
突出 “成长轨迹”（从协助到独立负责），体现学习能力；
数据化结果（如数据量、效率提升比例、准确率）更有说服力。

2. 还在职吗

考察知识点

求职状态真实性（是否存在离职交接冲突）
入职可能性与时间匹配度（避免 offer 发放后无法到岗）

参考回答

我目前仍在职，已和领导提前沟通过 “职业发展方向调整” 的想法，领导表示理解。若能拿到贵司 offer，我会预留 2 周时间完成工作交接（主要是离线报表任务的文档梳理、实时任务的监控权限移交），确保不影响原团队进度，2 周后可正式到岗。

补充注意要点

坦诚表述，不隐瞒在职状态（避免后期背调风险）；
主动提及 “交接方案”，体现责任心和职业素养；
若已离职，直接说明 “已离职，目前可全身心投入新工作，随时能到岗” 即可。

3. 有独立做过需求吗

考察知识点

独立负责项目的全流程能力（需求拆解→方案设计→开发→上线→复盘）
技术落地与业务结合的能力
风险应对与结果交付意识

参考回答

有，去年独立负责「电商大促前用户复购预测」需求：

背景：业务方需要提前 3 天预测高复购用户（近 30 天有消费且大促意向强），用于精准发券；
全流程负责：从需求拆解（明确 “复购用户定义”“预测维度”）→方案设计（用 Spark MLlib 训练逻辑回归模型，特征包括历史消费频次、浏览时长、加购行为）→开发（用 Hive 预处理特征数据，Spark 训练模型，结果写入 MySQL 供业务调用）→测试（对比历史数据验证模型准确率，从 82% 优化至 88%）→上线（大促前 5 天完成部署，设置每日重跑任务）；
结果：大促期间高复购用户券核销率提升 35%，直接带动 GMV 增长 8%，后续该模型被复用至日常营销活动。

补充注意要点

选 “小而完整” 的需求（而非 “参与的大项目片段”），体现 “独立闭环” 能力；
重点说 “自己做的决策”（如为何选逻辑回归而非 XGBoost，因数据量小、训练速度快），体现思考深度。

4. 做过最难的需求是什么

考察知识点

复杂问题拆解能力（是否能将 “难” 转化为可落地的步骤）
技术攻坚与抗压能力
复盘总结与经验沉淀意识

参考回答

最难的是「实时物流轨迹异常监控」需求，难点在于 “低延迟 + 高准确性” 双重要求：

难在哪：① 物流数据实时产生（日均 5000 万条 GPS 记录），需 10s 内判断是否偏离规划路线；② 异常场景多（如临时绕路、信号丢失），误判率需 < 1%；
拆解与攻坚：
1. 先拆链路：数据接入（Kafka）→实时计算（Flink）→异常判断（自定义算法）→结果输出（Redis + 告警）；
2. 解决核心问题：① 延迟：将 Flink 并行度从 8 调至 16，State 后端用 RocksDB（减少内存占用），延迟从 20s 降至 8s；② 误判：加入 “历史路线匹配” 逻辑（若偏离路线但属于常用绕路区域，不触发告警），误判率从 3% 降至 0.8%；
结果：需求按时上线，大促期间物流异常响应时间缩短 60%，用户投诉率下降 25%，后续整理了《实时轨迹监控技术方案》同步给团队。

补充注意要点

先明确 “难的具体原因”（技术瓶颈 / 业务复杂 / 资源不足），再讲 “怎么解决”，避免只说 “难” 不说 “解法”；
突出 “主动思考”（如自己查 Flink 官方文档调优 State，而非依赖同事）。

5. 你处理的数据量有多大

考察知识点

大数据场景的实战经验（是否接触过 TB/PB 级数据）
对数据量级的认知（不同量级对应的技术选型差异）
性能优化能力（如何适配大数据量处理）

参考回答

实习期间主要处理两类数据，量级和方案如下：

离线数据：每日处理用户行为日志（500TB，包括浏览、点击、下单），用 HDFS 存储（按日期 + 地区分区），Hive 做离线计算（采用 ORC 压缩格式，比 Text 格式节省 60% 存储空间），Spark 做聚合分析（如 “各地区日活用户”），单任务执行时间从 2 小时优化至 40 分钟（主要是分桶 JOIN 解决数据倾斜）；
实时数据：处理实时交易流（峰值 QPS 2 万，每条数据 1KB），用 Kafka 接入（3 个副本，20 个分区），Flink 实时计算（窗口大小 5s，并行度 12），结果写入 ClickHouse（按交易时间分区），供业务端实时查询 “实时 GMV”“Top10 商品销量”，延迟稳定在 50ms 内。

补充注意要点

分 “离线 / 实时” 说明（符合大数据岗位常见场景），数据量要具体（避免 “很大”“很多”）；
结合技术选型和优化手段（如压缩格式、分区策略、并行度调整），体现对 “数据量适配技术” 的理解。

6. 有接过实时的需求吗

考察知识点

实时计算技术栈掌握程度（Kafka/Flink/Spark Streaming）
实时需求的核心痛点应对（如延迟、 Exactly-Once 语义）
业务价值落地（实时数据如何支撑业务）

参考回答

接过「实时商品库存监控」需求，业务方需要实时同步库存变更（如下单减库存、退货加库存），避免超卖：

技术栈：Kafka（接收 ERP 系统的库存变更日志）+ Flink（实时计算库存余量）+ Redis（缓存实时库存，供前端查询）；
关键处理：
1. 数据可靠性：用 Flink 的 Checkpoint（间隔 1min）+ Kafka 的 Offset 提交，保障 Exactly-Once 语义（避免库存计算重复或丢失）；
2. 低延迟：优化 Flink Source 端（批量拉取 Kafka 数据，批次大小 1000 条），Sink 端（Redis 批量写入，减少网络 IO），延迟从 150ms 降至 80ms；
3. 异常处理：设置库存为 0 时触发告警，同时屏蔽 “负数库存”（因网络延迟导致的重复扣减）；
结果：上线后零超卖事故，库存数据同步延迟 < 100ms，支撑了 618 大促期间 10 万 + 商品的实时库存展示。

补充注意要点

明确 “实时需求的业务目标”（如避免超卖、实时监控），而非只讲技术；
提及实时场景的核心技术点（如 Exactly-Once、Checkpoint、延迟优化），体现专业性。

7. Flink 了解多少

考察知识点

Flink 核心原理的理解深度（流批一体、State、Watermark 等）
实际应用经验（场景 + 问题 + 解法）
问题排查与调优能力

参考回答

我对 Flink 的理解分 “理论 + 应用” 两部分：

理论层面：掌握核心概念，比如① 流批一体（基于 DataStream API 统一处理流和批数据）；② State（管理计算中间状态，支持 Keyed State 和 Operator State，大状态用 RocksDB 后端）；③ Checkpoint（周期性快照，保障故障恢复不丢数据）；④ Watermark（处理乱序数据，定义数据迟到阈值）；

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

Subscribe Now

Already have an account? Sign In

字节数据开发/数据仓库面试二面

1. 实习内容

考察知识点

参考回答

补充注意要点

2. 还在职吗

考察知识点

参考回答

补充注意要点

3. 有独立做过需求吗

考察知识点

参考回答

补充注意要点

4. 做过最难的需求是什么

考察知识点

参考回答

补充注意要点

5. 你处理的数据量有多大

考察知识点

参考回答

补充注意要点

6. 有接过实时的需求吗

考察知识点

参考回答

补充注意要点

7. Flink 了解多少

考察知识点

参考回答

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

学姐带你披荆斩棘：直通大厂央企的人脉引路人