- 实习内容还在职吗
- 有独立做过需求吗
- 做过最难的需求是什么
- 你处理的数据量有多大
- 有接过实时的需求吗
- Flink了解多少
- 有主动钻研过数据领域的技术吗
- 保障过SLA基线吗
- 保障SLA基线要从哪方面着手
- 生服这么缺人力为什么要跨部门转正呢
场景题
11 如果一周给你定容了三个需求,你会怎么排期呢
12 如果你排期完成后,发现自己判断失误,这个需求在原定排期内做不完,你会怎么办你觉得保障SLA基线最困难的点在哪里
SQL
13 table两个字段 a b 代表了a关注了b写一个SQL找到相互关注的用户(尽量高效)
14 table student_id course score1 语文 78找出单个学科成绩第三名的同学的ID,总成绩和总成绩的全班排名
15 tabledate people2025-08-01 1412025-08-02 35日期是主键,people代表当日人流量找出连续三天人流量>100的date
答案如下
1. 实习内容
考察知识点
- 实习经历的真实性与细节颗粒度
- 项目参与深度(是否独立负责模块 / 环节)
- 技术栈应用能力(如 Hive、Flink、Spark 等工具的落地)
- 问题解决与结果导向思维
参考回答
我在 XX 公司数据部门实习了 6 个月,核心参与「用户行为分析平台」和「实时交易监控」两个项目,分阶段负责不同工作:
- 初期(1-2 月):协助离线数据清洗,用 Hive SQL 处理用户浏览日志(日均 10TB),过滤无效数据(如爬虫请求),优化 SQL 执行效率(将子查询改为 JOIN,执行时间从 40min 缩短至 15min);
- 中期(3-5 月):独立负责「实时交易异常检测」模块,用 Kafka 接入交易流数据,Flink 实时计算单笔订单金额、频次等指标,触发异常阈值(如 1 小时内同一账号下单 > 10 次)时推送告警至业务端,期间解决了 Flink 维表关联冷启动问题(通过预加载小表至本地缓存,延迟从 200ms 降至 50ms);
- 后期(6 月):参与项目复盘,输出数据质量报告(准确率 99.98%,告警响应时间 < 1s),并提出「按用户等级调整异常阈值」的优化建议,已被纳入下一版本迭代。
补充注意要点
- 避免泛泛而谈(如 “我做了数据处理”),需明确「做什么、用什么技术、遇到什么问题、怎么解决、有什么结果」;
- 突出 “成长轨迹”(从协助到独立负责),体现学习能力;
- 数据化结果(如数据量、效率提升比例、准确率)更有说服力。
2. 还在职吗
考察知识点
- 求职状态真实性(是否存在离职交接冲突)
- 入职可能性与时间匹配度(避免 offer 发放后无法到岗)
参考回答
我目前仍在职,已和领导提前沟通过 “职业发展方向调整” 的想法,领导表示理解。若能拿到贵司 offer,我会预留 2 周时间完成工作交接(主要是离线报表任务的文档梳理、实时任务的监控权限移交),确保不影响原团队进度,2 周后可正式到岗。
补充注意要点
- 坦诚表述,不隐瞒在职状态(避免后期背调风险);
- 主动提及 “交接方案”,体现责任心和职业素养;
- 若已离职,直接说明 “已离职,目前可全身心投入新工作,随时能到岗” 即可。
3. 有独立做过需求吗
考察知识点
- 独立负责项目的全流程能力(需求拆解→方案设计→开发→上线→复盘)
- 技术落地与业务结合的能力
- 风险应对与结果交付意识
参考回答
有,去年独立负责「电商大促前用户复购预测」需求:
- 背景:业务方需要提前 3 天预测高复购用户(近 30 天有消费且大促意向强),用于精准发券;
- 全流程负责:从需求拆解(明确 “复购用户定义”“预测维度”)→方案设计(用 Spark MLlib 训练逻辑回归模型,特征包括历史消费频次、浏览时长、加购行为)→开发(用 Hive 预处理特征数据,Spark 训练模型,结果写入 MySQL 供业务调用)→测试(对比历史数据验证模型准确率,从 82% 优化至 88%)→上线(大促前 5 天完成部署,设置每日重跑任务);
- 结果:大促期间高复购用户券核销率提升 35%,直接带动 GMV 增长 8%,后续该模型被复用至日常营销活动。
补充注意要点
- 选 “小而完整” 的需求(而非 “参与的大项目片段”),体现 “独立闭环” 能力;
- 重点说 “自己做的决策”(如为何选逻辑回归而非 XGBoost,因数据量小、训练速度快),体现思考深度。
4. 做过最难的需求是什么
考察知识点
- 复杂问题拆解能力(是否能将 “难” 转化为可落地的步骤)
- 技术攻坚与抗压能力
- 复盘总结与经验沉淀意识
参考回答
最难的是「实时物流轨迹异常监控」需求,难点在于 “低延迟 + 高准确性” 双重要求:
- 难在哪:① 物流数据实时产生(日均 5000 万条 GPS 记录),需 10s 内判断是否偏离规划路线;② 异常场景多(如临时绕路、信号丢失),误判率需 < 1%;
- 拆解与攻坚:
- 先拆链路:数据接入(Kafka)→实时计算(Flink)→异常判断(自定义算法)→结果输出(Redis + 告警);
- 解决核心问题:① 延迟:将 Flink 并行度从 8 调至 16,State 后端用 RocksDB(减少内存占用),延迟从 20s 降至 8s;② 误判:加入 “历史路线匹配” 逻辑(若偏离路线但属于常用绕路区域,不触发告警),误判率从 3% 降至 0.8%;
- 结果:需求按时上线,大促期间物流异常响应时间缩短 60%,用户投诉率下降 25%,后续整理了《实时轨迹监控技术方案》同步给团队。
补充注意要点
- 先明确 “难的具体原因”(技术瓶颈 / 业务复杂 / 资源不足),再讲 “怎么解决”,避免只说 “难” 不说 “解法”;
- 突出 “主动思考”(如自己查 Flink 官方文档调优 State,而非依赖同事)。
5. 你处理的数据量有多大
考察知识点
- 大数据场景的实战经验(是否接触过 TB/PB 级数据)
- 对数据量级的认知(不同量级对应的技术选型差异)
- 性能优化能力(如何适配大数据量处理)
参考回答
实习期间主要处理两类数据,量级和方案如下:
- 离线数据:每日处理用户行为日志(500TB,包括浏览、点击、下单),用 HDFS 存储(按日期 + 地区分区),Hive 做离线计算(采用 ORC 压缩格式,比 Text 格式节省 60% 存储空间),Spark 做聚合分析(如 “各地区日活用户”),单任务执行时间从 2 小时优化至 40 分钟(主要是分桶 JOIN 解决数据倾斜);
- 实时数据:处理实时交易流(峰值 QPS 2 万,每条数据 1KB),用 Kafka 接入(3 个副本,20 个分区),Flink 实时计算(窗口大小 5s,并行度 12),结果写入 ClickHouse(按交易时间分区),供业务端实时查询 “实时 GMV”“Top10 商品销量”,延迟稳定在 50ms 内。
补充注意要点
- 分 “离线 / 实时” 说明(符合大数据岗位常见场景),数据量要具体(避免 “很大”“很多”);
- 结合技术选型和优化手段(如压缩格式、分区策略、并行度调整),体现对 “数据量适配技术” 的理解。
6. 有接过实时的需求吗
考察知识点
- 实时计算技术栈掌握程度(Kafka/Flink/Spark Streaming)
- 实时需求的核心痛点应对(如延迟、 Exactly-Once 语义)
- 业务价值落地(实时数据如何支撑业务)
参考回答
接过「实时商品库存监控」需求,业务方需要实时同步库存变更(如下单减库存、退货加库存),避免超卖:
- 技术栈:Kafka(接收 ERP 系统的库存变更日志)+ Flink(实时计算库存余量)+ Redis(缓存实时库存,供前端查询);
- 关键处理:
- 数据可靠性:用 Flink 的 Checkpoint(间隔 1min)+ Kafka 的 Offset 提交,保障 Exactly-Once 语义(避免库存计算重复或丢失);
- 低延迟:优化 Flink Source 端(批量拉取 Kafka 数据,批次大小 1000 条),Sink 端(Redis 批量写入,减少网络 IO),延迟从 150ms 降至 80ms;
- 异常处理:设置库存为 0 时触发告警,同时屏蔽 “负数库存”(因网络延迟导致的重复扣减);
- 结果:上线后零超卖事故,库存数据同步延迟 < 100ms,支撑了 618 大促期间 10 万 + 商品的实时库存展示。
补充注意要点
- 明确 “实时需求的业务目标”(如避免超卖、实时监控),而非只讲技术;
- 提及实时场景的核心技术点(如 Exactly-Once、Checkpoint、延迟优化),体现专业性。
7. Flink 了解多少
考察知识点
- Flink 核心原理的理解深度(流批一体、State、Watermark 等)
- 实际应用经验(场景 + 问题 + 解法)
- 问题排查与调优能力
参考回答
我对 Flink 的理解分 “理论 + 应用” 两部分:
- 理论层面:掌握核心概念,比如① 流批一体(基于 DataStream API 统一处理流和批数据);② State(管理计算中间状态,支持 Keyed State 和 Operator State,大状态用 RocksDB 后端);③ Checkpoint(周期性快照,保障故障恢复不丢数据);④ Watermark(处理乱序数据,定义数据迟到阈值);
This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only
Subscribe NowAlready have an account? Sign In