📌 公司:中国联通·大数据
📌 岗位:数据开发实习生
📅 面试轮次:技术面 + 综合素质面

🧠 被问问题如下:

自我介绍(项目能说得细点最好)

Hive和HBase的区别?适用场景分别是什么?

说一下你熟悉的ETL流程,调度工具用过哪些?

Kafka和Flume的区别?Kafka有分区机制吗?

SQL题:窗口函数应用场景?写一个求分组TOP N的SQL

Python数据处理常用库有哪些?你最常用哪个?

综合素质面问了几个情景题,比如“突发数据延迟你怎么应对?”


参考答案:

1)自我介绍(项目能说得细一点最好)

考察知识点

  • 逻辑表达、技术栈覆盖度、项目深度与角色边界、数据治理意识、工程化与落地能力、结果与指标。
  • 是否能用“电信行业数据”做落地说明(例如话单、基站日志、计费/对账、用户画像等)。

参考回答(模板 + 示例)

开场 30 秒版(模板):

我叫XXX,目前就读于XXX,主修数据相关方向,熟悉 Hadoop/Spark/Hive/HBase/Kafka,能用 Airflow/Azkaban/DolphinScheduler 做调度,日常用 Python(pandas、PySpark) 做数据处理与质量校验。最近主导/深度参与了一个 [场景关键词] 项目,重点在 [核心目标],我负责 [你的职责];项目达成 [量化结果],沉淀 [可复用方法/文档]。我对运营商场景下的 离线数仓分层(ODS/DWD/DWS/ADS)实时链路(Kafka→Flink/HBase/ES)SLA 保障 有实践与思考,希望在贵团队实习中把这些经验进一步工程化、标准化。

项目深入版(示例——“基站告警与话单关联分析”):

在“基站告警与话单关联分析”项目中,我们的目标是把**基站设备告警(近实时)用户话单(T+1 批量)**对齐,识别“告警窗口内的掉话/失败通话”,给运维与客服提供区域性质量报告,支持按地市/小区维度定位问题。
数据链路采集:Flume/Filebeat 收集基站告警日志 → Kafka(topic:alarm_raw,3 分区,RF=3)。离线:话单落 HDFS,Hive ODS 分区按 dt,压缩 ORC,建宽表到 DWD,维表(站点、地市)做 SCD2 拉链。加工:Flink 实时计算告警窗口、维表广播;离线用 Spark SQL/Hive 做日级汇总(地市/小区/运营指标)。存储:实时明细写 HBase(RowKey:areaId#reversed_ts#callId,避免热点);离线汇总写 Hive DWS/ADS,部分指标同步到 ClickHouse 做报表。调度:Azkaban/DS 编排日批;实时任务监控 Kafka Lag、Flink Checkpoint、延迟水位。
我的工作:话单清洗(异常字段填充、分区策略、倾斜优化)、SCD2 维表构建、Flink 窗口 Join、HBase RowKey 设计与二级索引、Azkaban DAG、数据质量校验(空值率、基数、总量对账)。
效果:地市级“告警—掉话”匹配准确率 ↑12%,指标出数从 T+2 提前到 T+1 上午 9 点,沉淀了数据校验模板回溯脚本
经验:1)维表 SCD2 的时间区间要跟窗口对齐;2)HBase RowKey 前缀散列防热点,版本与 TTL 控制成本;3)SLA 一致性:离线与实时口径统一、口径字典化。

补充回答注意要点

  • 量化结果(时延、准确率、资源成本、SLA 达成率)。
  • 你做了什么(而非团队做了什么),强调职责边界与主导模块。
  • 突出Telco 语境(话单、基站、地市/小区、账期、合规)。
  • 强调质量与治理(数据质量规则、血缘、权限、脱敏)。
  • 准备 1–2 个失败/踩坑案例(数据倾斜、分区失效、HBase 热点、Kafka 积压)与复盘要点。

2)Hive 和 HBase 的区别?适用场景分别是什么?

考察知识点

  • **OLAP vs. OLTP(近实时 Key-Value)**定位;时延、吞吐、查询模式、存储模型、索引/RowKey、事务与一致性、生态对接(Spark、Flink、Presto)。
  • 电信场景下离线报表/画像(Hive) vs 实时明细/点查(HBase)。

参考回答

结论先行

  • Hive:构建在 HDFS 之上的批处理/分析引擎,适合 大规模离线聚合与报表(高吞吐、分钟到小时级时延)。
  • HBase:基于 HDFS 的分布式列族型 NoSQL,擅长 毫秒级随机读写按 RowKey 定位,适合在线/近实时明细查询、状态存储。

关键对比(面试官爱记要点)

  1. 存储/模型:Hive 面向文件(ORC/Parquet),SQL 分析;HBase 列族存储、面向行键 RowKey 的 KV。
  2. 时延:Hive 批处理(分钟/小时);HBase 毫秒级点查/写入。
  3. 访问模式:Hive 复杂 Join/聚合;HBase 主键(RowKey)点查、扫描(Scan with prefix/range)。
  4. 索引:Hive 主要靠分区/分桶/统计信息;HBase 依赖 RowKey 设计(可配二级索引组件或反范式冗余)。
  5. 一致性/事务:Hive 传统弱事务(早期近似 append-only),HBase 行级原子性(行内列族)。
  6. 应用场景
    • Hive:离线数仓分层、宽表、广告/画像/账期报表、OLAP 指标。
    • HBase:用户画像实时标签存取、实时明细落地、风控/黑白名单、维表高速点查。

场景举例

  • 联通场景
    • Hive:T+1 的 账期报表、地市/小区维度 KPI 统计、话单明细的离线宽表、历史画像沉淀。
    • HBase:实时用户在线状态,按手机号/IMSI 秒级查询画像标签;告警关联的明细点查与回溯。

补充回答注意要点

  • RowKey 设计三原则唯一性(userId+时间)、有序性(时间反转 reverse_ts 便于最近优先)、散列性(前缀 hash 防热点)。
  • HBase 成本控制:TTL、版本数、冷热分离(历史归档到 Hive),Region 预分裂与 Compaction 监控。
  • Hive 性能:分区裁剪、MapJoin(小表广播)、数据倾斜处理(salting/两段聚合/skewjoin)、文件小块合并(小文件治理)。
  • 生态扩展Hudi/Iceberg/Delta 可在 Hive/HDFS 上提供 CDC/ACID/Upsert/时光回溯,同时兼顾离线+近实时。提到这些是加分项
  • 易错:把 HBase 当关系库做复杂多表 Join(不合适);把 Hive 当在线库(时延不匹配)。

3)说一下你熟悉的 ETL 流程,调度工具用过哪些?

考察知识点

  • 数仓分层(ODS→DWD→DWS→ADS),维度建模(SCD1/2)、CDC/增量数据质量血缘与口径SLA 与回溯
  • 调度系统选型(Azkaban/Airflow/DolphinScheduler/Oozie)、DAG 编排、依赖/重跑/补数/告警。

参考回答

ETL/ELT 流程(结合运营商)

  1. 采集层
    • 批量:Binlog→Kafka→Hudi/Iceberg/Hive ODS;FTP/SFTP 拉取对账/账期文件。
    • 实时:基站告警、信令、终端日志经 Flume/Filebeat→Kafka。
  2. ODS(原始层)
    • 原样落地、分区dt/hour格式 ORC/Parquet + 压缩(ZSTD/SNAPPY),保留主键与业务时间。
  3. DWD(明细层)
    • 业务清洗/去重/补齐维度键;构建 SCD2 维表(拉链)start_dt/end_dt/is_current
  4. DWS(汇总层)
    • 预聚合(地市/小区/终端类型),构建主题服务层(质量、画像、告警关联)。
  5. ADS(应用层)
    • 对报表/接口友好,按需裁剪字段;热点指标同步至 ClickHouse/ES/HBase 供查询。
  6. 质量 & 治理
    • 规则:总量对账、空值率、基数、分布、环比/同比;
    • 血缘:记录上游表、计算口径、版本;
    • SLA:到达时点、波动阈值;
    • 回溯:保留中间数据与参数化补数脚本(dtstart_dtend_dt)。

调度工具使用

  • Azkaban:简单稳定、易落地;多用于日批/小时批;擅长有序依赖、失败重跑。
  • Airflow:Python 化、DAG 清晰、插件/传感器丰富、方便参数化与回填(Backfill)
  • DolphinScheduler:可视化强,适合多团队协作与审批流;支持多种任务类型。
  • (历史)Oozie:Hadoop 生态老牌调度,但复杂度与学习成本较高。

一个落地例子(账期日批)

  • DAG:ODS_话单导入 → DWD_清洗去重 → DWD_维度关联 → DWS_地市汇总 → ADS_报表出数 → 质量校验 → 成功通知
  • 失败策略:关键环节 max_retries=3,失败发送 钉钉/企微,并触发自动回滚/回灌脚本。

补充回答注意要点

  • 参数化:所有任务以 dt 等参数驱动,便于补数与复跑。
  • 幂等性:写入前先删除目标分区或采用 Merge/Upsert(Hudi/Iceberg)。
  • 资源与倾斜:设置合理 mapper/reducer、并行度、开启 mapjoin;倾斜 Key 采用 盐值拆两次聚合
  • 口径管理:有口径字典/数据资产目录,确保报表一致性。
  • 权限与合规:脱敏(手机号/IMSI 做掩码或映射)、访问审计。

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

Subscribe Now

Already have an account?