字节跳动-生活服务-大数据开发-二面(2025.3.25)

实习学到什么
本科到研究生的专业跨度
你的优势。
实习中成就感的事
Clickhouse 的每日百亿数据的优化
分区的存储表现
Clickhouse 中物化视图的更新
Clickhouse 索引了解吗、Hive中有索引吗、索引为什么快。

1. 实习学到什么

考察知识点

实习期间的核心能力成长（技术、业务、软技能）
理论知识与实战的结合程度
问题解决能力与反思总结意识

参考回答

6个月的大数据开发实习，让我从“理论认知”转向“实战落地”，核心收获集中在技术能力、业务思维和协作模式三个维度：

技术能力：从“会用工具”到“懂原理、能优化”
- 大数据工具链实战：熟练掌握Hive/Spark/Flink全链路开发，独立完成DWD/DWM/DWS层表设计与ETL脚本编写（累计开发表30+，脚本50+），例如通过Spark SQL优化“用户行为日志清洗”任务，将执行时间从2小时缩短至40分钟（解决小文件和数据倾斜问题）；
- 数据库优化实践：深入学习ClickHouse在百亿级数据场景的优化，掌握分区、索引、物化视图等核心手段，例如为ClickHouse日志表设计“按日期+地域”复合分区，结合跳数索引，将“近7天用户活跃查询”耗时从10秒降至1.2秒；
- 问题排查能力：通过Spark UI、ClickHouse系统表定位各类问题（如数据倾斜、查询慢、任务失败），形成《大数据常见问题排查手册》，包含20+典型问题及解决方案。
业务思维：从“技术实现”到“数据驱动业务”
- 需求拆解能力：学会从业务目标反推数据需求，例如“提升直播间转化率”需拆解为“用户停留时长、商品点击率、下单率”等可量化指标，进而设计对应的DWS层汇总表；
- 数据价值意识：意识到数据开发的核心是“支撑业务决策”，而非“完成任务”，例如通过分析用户行为数据，发现“凌晨2-4点用户下单率低”，建议运营调整直播时段，最终该时段转化率提升15%。
协作模式：从“独立学习”到“跨团队协同”
- 跨角色沟通：掌握与业务（运营、产品）、算法、运维团队的沟通技巧，例如用“业务语言”向运营解释“数据倾斜导致报表延迟”（类比“高速公路堵车，需拓宽车道”），而非堆砌技术术语；
- 项目闭环思维：参与“跨境数据迁移”项目全流程（需求调研→方案设计→开发测试→上线运维），理解“需求确认-风险评估-上线监控”的项目闭环，提升责任心。

补充注意要点

避免空泛描述：用“具体项目+技术动作+量化成果”体现成长（如“优化任务耗时”而非“提升了技术能力”）；
突出“差异化收获”：结合实习岗位（如大数据开发），聚焦该岗位核心技能（如数仓建模、性能优化），而非泛泛而谈“沟通能力”；
体现“反思性”：可简要提及“发现自身在实时计算（Flink）方面不足，后续计划深入学习”，展现持续成长意识。

2. 本科到研究生的专业跨度

考察知识点

专业跨度的核心逻辑（互补性、目标导向）
跨度带来的复合能力与差异化优势
如何将不同专业的知识融合应用于岗位

参考回答

我的本科专业是信息管理与信息系统（偏业务流程与系统设计），研究生专业是数据科学与大数据技术（偏技术实现与数据分析），跨度核心是“从‘业务流程认知’到‘技术落地能力’的深化”，形成“业务理解+技术实现”的复合优势：

跨度的核心逻辑：弥补“业务与技术的断层”
- 本科奠定“业务认知”基础：学习《企业资源规划（ERP）》《业务流程优化》等课程，理解企业业务运转逻辑（如电商的“订单-支付-物流”全链路），避免后续技术开发“脱离业务实际”；
- 研究生聚焦“技术落地”能力：系统学习Hadoop/Spark生态、机器学习算法、数据库优化等，掌握数据采集、建模、分析、优化的全流程技术，弥补本科在“硬核技术实现”上的不足。
复合优势：业务与技术的双向赋能
- 技术开发更贴合业务：例如在数仓建模时，能快速理解“交易域”“用户域”对应的业务场景，设计出更符合运营需求的表结构（如在DWS层增加“用户复购率”指标，直接支撑运营的“老用户召回”策略）；
- 业务分析更懂技术边界：与运营沟通需求时，能清晰告知“哪些指标可实时计算（如ClickHouse支持），哪些需T+1汇总（如Hive批量计算）”，避免提出“技术无法实现”的需求，提升协作效率。
实践融合案例
- 在“AI猎头人才匹配”项目中，用本科所学的“业务流程优化”知识梳理“简历采集-特征提取-匹配推荐”的全流程，识别出“特征提取准确率低”的瓶颈；
- 用研究生所学的NLP技术（BERT预训练模型）优化简历技能提取逻辑，将准确率从85%提升至92%，同时结合业务流程，新增“候选人求职意向”标签，让匹配结果更贴合猎头需求。

补充注意要点

突出“跨度价值”：避免强调“跨度大、学习难”，转而聚焦“跨度带来的独特优势”（如业务+技术复合能力）；
结合岗位需求：若应聘大数据开发岗位，重点说明“业务认知帮助技术开发更贴合需求”；若应聘数据分析岗位，可强调“技术能力让业务分析更深入”；
用案例佐证：通过具体项目说明如何融合两个专业的知识解决问题，避免空谈“优势”。

3. 你的优势

考察知识点

个人能力与岗位需求的匹配度
差异化优势（与其他候选人的核心区别）
优势的可验证性（有具体案例/成果支撑）

参考回答

结合大数据开发岗位需求，我的核心优势集中在“实战经验扎实+业务技术双通+主动解决问题意识”三个方面，且均有具体案例支撑：

实战经验扎实，能快速落地业务需求
- 独立完成数仓全链路开发：实习期间独立负责“直播业务数仓”模块，从ODS层日志采集（Flume+Kafka）到DWS层指标汇总（Spark SQL），全流程开发并上线15张核心表，支撑“直播GMV监控”“用户行为分析”等5个业务看板，上线后报表生成周期从T+2缩短至T+1；
- 精通ClickHouse性能优化：针对百亿级日志数据，通过“复合分区+跳数索引+物化视图”组合优化，将高频查询（如“近30天各直播间在线人数趋势”）耗时从15秒降至1.8秒，支撑业务实时监控需求。
业务与技术双通，能精准理解并转化需求
- 擅长“需求翻译”：能将业务方的模糊需求（如“提升直播间用户粘性”）拆解为可落地的技术指标（如“用户停留时长≥5分钟占比”“复访率”），并设计对应的数据模型；例如曾将运营提出的“优化商品推荐”需求，转化为“用户点击-加购-下单”转化漏斗表，为算法团队提供特征数据，最终推荐转化率提升12%；
- 懂业务边界与技术可行性：与业务方沟通时，能提前预判技术风险（如“实时计算百万级用户画像”的资源成本），给出“分阶段实现”方案（先T+1，再逐步过渡到实时），平衡业务需求与技术成本。
主动解决问题，具备闭环思维
- 主动排查并解决潜在问题：实习时发现数仓中“用户表”存在每日数据量波动超30%的隐患，主动编写监控脚本，设置“数据量波动超20%告警”，并定位到是“业务库分表同步遗漏”导致，修复后数据稳定性从95%提升至100%；
- 沉淀可复用经验：将优化案例（如ClickHouse索引优化、Spark数据倾斜解决）整理成《大数据开发实战手册》，包含10+优化方案，被团队采纳为新人培训材料。

补充注意要点

优势需“对标岗位”：针对大数据开发岗位，重点突出“数仓建模、性能优化、工具实战”等硬技能，辅以“需求理解、跨团队协作”等软技能；
避免“万能优势”：拒绝“学习能力强”“吃苦耐劳”等空泛表述，用“具体案例+量化成果”支撑（如“独立开发15张表”“优化后耗时缩短88%”）；
控制优势数量：聚焦2-3个核心优势，避免罗列过多导致重点不突出。

4. 实习中成就感的事

考察知识点

解决复杂问题的能力（技术/业务层面）
项目贡献与业务价值的关联
个人成长与反思（从事件中获得的收获）

参考回答

实习中最有成就感的事，是主导“ClickHouse百亿级日志数据查询优化”项目，解决了业务方“实时监控看板加载慢”的核心痛点，具体过程与成果如下：

背景与问题：看板加载慢制约业务决策公司直播业务的用户行为日志（日均150亿条，数据量1.2TB/天）存储在ClickHouse中，支撑运营的“实时监控看板”（需展示“近1小时各直播间在线人数、商品点击率”等指标）。但随着数据量增长，看板核心查询（如“近7天直播间TOP10在线峰值”）耗时从5秒增至20秒，远超业务方“≤3秒”的要求，导致运营无法及时调整直播策略（如发现在线人数骤降时，不能快速排查原因）。
我的核心动作：从“存储-索引-计算”全链路优化
- 第一步：重构分区策略，减少扫描数据量原表仅按“日期（dt）”分区，查询“近7天数据”需扫描7个分区的全量数据；改为“日期（dt）+ 直播间地域（region）”复合分区（如dt=20240901, region=华北），结合业务查询高频筛选“地域”的特点，扫描数据量减少65%；
- 第二步：新增跳数索引，加速过滤效率针对“在线人数（online_num）”“点击次数（click_cnt）”等核心指标，新增“MinMax索引”（快速定位指标范围）和“Bloom Filter索引”（快速判断直播间是否存在目标数据），过滤阶段耗时从8秒降至1.5秒；
- 第三步：创建物化视图，预聚合高频指标对“近1小时/24小时在线人数趋势”等高频查询，创建“按dt+region+room_id+minute”预聚合的物化视图，将实时计算转为“物化视图查询+少量汇总”，查询耗时进一步缩短至1.2秒；
- 第四步：优化SQL与资源配置改写原SQL的“SELECT *”为字段裁剪，关闭ClickHouse的“不必要的查询优化开关”（如optimize_trivial_plan=0），同时调整集群资源（增加2个core节点，调整max_threads=32）。
成果与价值：从技术优化到业务赋能
- 技术层面：核心查询耗时从20秒降至1.2秒，满足业务“≤3秒”要求；看板日均查询量从500次增至1200次，ClickHouse集群CPU使用率从85%降至40%；
- 业务层面：运营能实时监控直播间数据，发现“某直播间在线人数骤降”时，可快速定位是“地域网络问题”（通过分区筛选），及时调整推流策略，该直播间日GMV提升20%；
- 团队层面：沉淀《ClickHouse百亿级数据优化手册》，包含分区、索引、物化视图等6类优化方案，后续被应用于“电商订单日志”“用户行为分析”等其他业务线，累计节省集群资源成本30%。
个人收获深刻理解“技术优化需贴合业务场景”（如根据“地域筛选高频”设计复合分区），而非盲目调参；同时提升了“从问题定义到方案落地”的闭环能力，后续面对类似性能问题时，能快速拆解“存储-索引-计算”等优化维度。

补充注意要点

突出“个人主导性”：明确自己在项目中的角色（如“主导优化”“独立设计方案”），而非“参与”；
量化成果：用“耗时从X秒降至Y秒”“GMV提升X%”等数据体现价值，避免“提升效率”等模糊表述；
关联成长：说明事件带来的能力提升（如“闭环思维”“业务与技术结合”），展现持续进步意识。

5. ClickHouse 的每日百亿数据的优化

考察知识点

ClickHouse在海量数据（百亿级）场景的核心瓶颈（存储、计算、IO）
针对性优化手段（分区、索引、物化视图、资源配置等）
优化逻辑与数据特性（如日志数据的时间性、查询模式）的匹配

参考回答

ClickHouse处理每日百亿级数据（如用户行为日志、业务流水）的核心瓶颈是“存储IO压力大、查询扫描数据量大、计算资源紧张”，需从“存储层-索引层-计算层-资源层”全链路优化，具体方案如下：

（1）存储层优化：减少IO开销，提升数据读取效率

合理设计分区策略
- 核心逻辑：利用数据“时间性强”的特点（如日志按时间产生），结合查询高频筛选条件（如“日期、地域、业务线”）设计复合分区；
- 示例：每日百亿级日志表按“dt（日期，yyyyMMdd）+ region（地域）+ biz_type（业务线）”分区，查询“近7天华北地区直播业务日志”时，仅扫描7×1（地域）×1（业务线）=7个分区，而非全量（365个分区），扫描数据量减少98%；
- 注意：分区粒度不宜过细（如按分钟分区，导致分区数超10万，元数据管理压力大），建议单分区数据量10-50GB（百亿级数据每日分20-50个分区为宜）。
选择高效存储格式与压缩
- 存储格式：默认使用MergeTree引擎（适合海量数据），开启“列存”特性（仅读取查询所需字段，减少IO）；避免使用TinyLog（无索引）、Memory（内存存储，不适合海量数据）；
- 压缩算法：使用LZ4或ZSTD压缩（LZ4解压快，适合实时查询；ZSTD压缩率高，适合归档数据），禁用Gzip（解压慢）；例如用ZSTD压缩后，日志数据存储量减少70%，IO读取时间缩短60%。
避免小文件与数据碎片
- 写入优化：采用“批量写入”（如每次写入10GB数据），避免单条INSERT；开启optimize_on_insert=0（关闭写入时自动合并），在夜间低峰期通过OPTIMIZE TABLE手动合并小文件；
- 分区TTL管理：设置数据生命周期（如TTL dt + INTERVAL 90 DAY），自动删除超期数据，减少存储压力和查询扫描范围。

（2）索引层优化：加速查询过滤，减少扫描行数

主键索引（必选）
- 设计逻辑：选择查询高频排序/筛选字段（如dt、room_id、user_id）作为主键，ClickHouse按主键排序存储，形成“稀疏索引”（每8192行一个索引标记），快速定位数据范围；
- 示例：日志表主键设为(dt, region, room_id)，查询“dt=20240901 AND region=华北 AND room_id=1001”时，通过主键索引直接定位到目标数据块，扫描行数减少99%。
跳数索引（针对性补充）
- 适用场景：对非主键的高频筛选字段（如online_num、click_cnt），新增跳数索引加速范围查询；
- 常用类型：
  - MinMax：快速判断字段值是否在查询范围内（如“online_num>1000”）；
  - Bloom Filter：快速判断目标值是否存在（如“user_id=12345”）；
  - Set：适合枚举值少的字段（如“biz_type（业务线）”）；
- 示例：对online_num字段加MinMax索引，查询“online_num BETWEEN 500 AND 2000”时，可跳过90%不满足条件的数据块。

（3）计算层优化：提升查询执行效率

预聚合（物化视图）
- 核心逻辑：对高频聚合查询（如“按分钟/小时汇总在线人数、点击量”），创建物化视图预计算结果，查询时直接复用，避免实时扫描全量数据；
- 示例：针对“近1小时各直播间在线人数趋势”，创建物化视图mv_live_online_minute，按“dt, room_id, minute”聚合max(online_num)，查询时从物化视图读取（仅百万级数据），而非原表（百亿级数据），耗时从20秒降至1秒。
SQL与查询优化
- 字段裁剪：避免SELECT *，仅查询必要字段（如查询“在线人数”时，不读取“用户行为详情”字段）；
- 减少DISTINCT：用approx_count_distinct替代count(distinct)（允许1%误差，效率提升10倍）；
- 合理使用LIMIT与过滤：优先在WHERE clause过滤数据（如dt=20240901），再做聚合，避免全表聚合后过滤；
- 关闭不必要的优化：对复杂查询，关闭optimize_trivial_plan（避免简单计划优化失效）、allow_suspicious_low_cardinality_types（避免低基数字段优化异常）。

（4）资源层优化：保障集群稳定运行

集群架构与节点配置
- 节点角色分离：将“数据节点（Data Node）”与“ZooKeeper节点”分离，避免元数据管理影响数据读写；百亿级数据建议集群规模≥5个节点（3个数据节点+2个备用节点）；
- 资源配置：每个Data Node配置≥32核CPU、128GB内存（内存为CPU核心数的4-8倍），磁盘用SSD（IOPS比HDD高10倍，适合高频查询）；
- 线程与队列：设置max_threads=32（每个查询最大线程数，与CPU核心数匹配），max_concurrent_queries=100（控制并发查询数，避免资源争抢）。
监控与运维
- 实时监控：通过system.metrics（集群指标）、system.processes（当前查询）监控CPU、内存、IO使用率，设置“CPU使用率>80%”“查询耗时>10秒”告警；
- 定期运维：夜间低峰期执行OPTIMIZE TABLE合并小文件，ALTER TABLE ... DROP PARTITION删除超期数据，避免碎片累积。

补充注意要点

优化需“因地制宜”：结合数据特性（如日志数据的时间性、查询模式的“按时间+维度筛选”）选择方案，避免生搬硬套；

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

Subscribe Now

Already have an account? Sign In

字节跳动-生活服务-大数据开发-二面(2025.3.25)

1. 实习学到什么

考察知识点

参考回答

补充注意要点

2. 本科到研究生的专业跨度

考察知识点

参考回答

补充注意要点

3. 你的优势

考察知识点

参考回答

补充注意要点

4. 实习中成就感的事

考察知识点

参考回答

补充注意要点

5. ClickHouse 的每日百亿数据的优化

考察知识点

参考回答

（1）存储层优化：减少IO开销，提升数据读取效率

（2）索引层优化：加速查询过滤，减少扫描行数

（3）计算层优化：提升查询执行效率

（4）资源层优化：保障集群稳定运行

补充注意要点

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

About Author

Sponsored Ad

Read Next

小万和大树知识成长营地

高频SQL题

小万和大树知识成长营地

数据仓库八股

1. 实习学到什么

考察知识点

参考回答

补充注意要点

2. 本科到研究生的专业跨度

考察知识点

参考回答

补充注意要点

3. 你的优势

考察知识点

参考回答

补充注意要点

4. 实习中成就感的事

考察知识点

参考回答

补充注意要点

5. ClickHouse 的每日百亿数据的优化

考察知识点

参考回答

（1）存储层优化：减少IO开销，提升数据读取效率

（2）索引层优化：加速查询过滤，减少扫描行数

（3）计算层优化：提升查询执行效率

（4）资源层优化：保障集群稳定运行

补充注意要点

This post is for subscribers on the 网站会员 and 成为小万的高级会员 tiers only

About Author

Sponsored Ad

Read Next

小万和大树知识成长营地

高频SQL题

小万和大树知识成长营地

数据仓库八股

学姐带你披荆斩棘：直通大厂央企的人脉引路人