一面
形式:线上飞书1v1面,没问自我介绍,问技术问题+SQL手撕代码1道,总时长1h20min左右
·问题1:对这个岗位的理解、说说这个岗位是干什么的
·问题2:说说MySQL和HDFS的区别
→追问:那么他们在存储方面除了你说的文件类型,还有什么不同?HDFS除了txt还能存什么类型的文件?
·问题3:对大数据组件的了解,知道哪些大数据组件
·问题4:数据倾斜
·问题5:MapReduce中什么情况会发生数据倾斜?Map的功能是什么?
·问题6:对哪些数据库有了解?知道哪些分析型数据库?知道Clickhouse、Doris吗?
·问题7:如果抖音上有一个商品订单量某一天突然暴增,怎么用数据的方法去分析原因?在业务层面之外,能不能从数据层面、下单的流程去细化考虑?
·手撕SQL题:
现在有一张表,有user_id列(表示用户编号)和timestamp列(timestamp列表示用户访问的时间戳,单位秒,形如10000、10070这种)。
现在需要统计session情况,如果后台连续30秒以上没有收到用户的访问信息,那么之前的访问就记为一个session。例如对于user_id为1,其timestamp列有10000、10003、10010、10035、10070。10000、10003、10010、10035记为一个session,其session时长session_time为35s;10070为一个session——像这样单独出现的session时长session_time记为1s。
同时还需要统计每个session的起始时间start_ts、结束时间end_ts。例如10000、10003、10010、10035的start_ts为10000、end_ts为10035。10070的start_ts为10070、end_ts为10070。
输出的结果需要有user_id、session_time、start_ts、end_ts列。
面试题1:对这个岗位的理解、说说这个岗位是干什么的
考察知识点
1. 对大数据开发(数据研发)岗位核心职责、工作流程的认知,区分数据开发与数据分析师、算法工程师的差异;2. 对泛抖音业务场景(内容消费、电商、直播、用户行为等)的基本理解,明确数据开发在业务中的价值;3. 自我定位与岗位的匹配度,是否清楚实习生岗位的具体工作内容,体现职业认知和求职诚意;4. 对大数据开发核心技能(ETL、数仓、组件使用)的关联认知,证明自己理解岗位的技术要求。
参考回答
结合字节泛抖音业务场景和大数据开发的核心定位,我对这个实习生岗位的理解是:它是字节抖音生态数据链路的核心支撑角色,本质是“用大数据技术解决业务数据的采集、清洗、存储、计算和服务问题”,核心围绕抖音APP、抖音电商、直播等泛抖音业务,做数据工程化落地和数据支撑,具体工作内容分为5个核心模块,贴合实习生的实操场景:第一,数据采集与ETL开发。负责对接抖音的各类业务数据源,包括用户行为数据(如点击、滑动、停留)、电商订单数据(下单、支付、退款)、直播数据(观看人数、礼物打赏)、内容数据(视频发布、点赞、评论)等,通过Flume、DataX等工具完成数据采集,再使用Hive、Spark等组件编写ETL脚本,对原始数据进行清洗、去重、脱敏、字段转换和关联整合,将杂乱的原始数据转化为结构化的明细数据,为后续数仓建设和指标计算打下基础。第二,数仓分层建设与维护。参与泛抖音业务数仓的分层搭建,遵循ODS(原始数据层)、DWD(明细数据层)、DWS(汇总数据层)、ADS(应用数据层)的分层逻辑,负责具体分层表的设计、开发和维护,比如基于用户行为明细数据,构建用户每日活跃、留存等汇总表,确保数仓结构规范、数据口径统一,支撑后续的多场景数据使用。第三,数据任务开发与监控。基于业务需求,开发离线或实时数据任务,比如每日凌晨执行的离线报表任务、实时更新的电商订单指标任务,使用Spark、Flink等计算引擎编写任务脚本,配置任务调度(如Airflow、Azkaban),同时负责任务的日常监控,排查任务失败、数据延迟、数据质量异常等问题,比如处理数据倾斜、调整任务并行度,确保数据按时、准确产出。第四,数据支撑与协作。配合业务运营、数据分析师、算法工程师完成数据需求,比如协助分析师取数、验证指标口径,为算法团队提供特征数据(如用户行为特征、商品特征),参与业务问题的数据排查,比如分析某类视频播放量下降、某商品订单异常的原因,提供数据层面的支撑,助力业务决策和产品迭代。第五,数据质量与规范建设。参与数据质量校验规则的制定和落地,比如校验数据完整性、准确性、一致性,处理缺失值、异常值等问题;协助整理数据文档,规范数据口径、表结构说明,确保数据可复用、可追溯,降低团队协作成本。整体来看,这个岗位不是单纯的“写SQL、跑任务”,而是兼具工程性和业务性,既要掌握大数据组件的使用和优化技巧,也要理解抖音业务逻辑,核心价值是把业务数据转化为可用的资产,支撑抖音产品优化、电商业务增长、用户体验提升等核心目标,这也是我希望参与的工作方向。
补充回答注意要点
1. 核心突出“业务+技术”结合,避免只谈技术不谈业务,必须关联“泛抖音”场景(电商、直播、用户行为),踩中字节业务重点;2. 工作内容分点但不生硬,每个模块补充具体场景(如ETL的具体数据源、数仓的分层、任务监控的具体问题),体现实操认知,避免空洞;3. 明确区分数据开发与其他岗位(如分析师侧重分析,开发侧重工程化落地),体现岗位认知的准确性;4. 贴合实习生定位,不夸大工作内容,重点突出“协助、参与、落地”等关键词,同时体现主动思考(如数据质量、规范建设);5. 避免遗漏核心关键词:ETL、数仓分层、数据监控、数据支撑、业务协作,这些是面试官重点关注的得分点。
面试题2:说说MySQL和HDFS的区别;追问:那么他们在存储方面除了你说的文件类型,还有什么不同?HDFS除了txt还能存什么类型的文件?
考察知识点
1. 核心:OLTP(在线事务处理)数据库(MySQL)与分布式文件系统(HDFS)的本质差异,理解两者的设计目标和适用场景;2. 存储层面:数据组织形式、读写模型、副本机制、小文件处理、访问方式等核心差异,深入理解两者的存储原理;3. HDFS基础特性:支持的文件格式、存储优势,考察对HDFS实操的了解程度,贴合大数据存储的核心需求;4. 逻辑思维:能清晰区分不同存储组件的定位,结合实际业务场景说明差异,体现技术认知的深度。
参考回答
MySQL和HDFS是大数据技术栈中两种定位完全不同的存储组件,核心区别在于设计目标和适用场景,具体从核心定位、数据组织、读写能力、扩展性等多个维度展开,同时回应追问内容