携程——数据仓库实习生 2026年2月

二面
携程——数据仓库实习生 2026年2月

形式:1v1线上面(腾讯会议),无代码手撕,主要问过往实习问题+技术问题,总时长20min+

问题1:上段实习的业务是什么,怎么做数仓分层

问题2:对数仓分层的理解是什么

问题3:上段实习中遇到过什么技术问题,怎么解决的

问题4:看你Python和Java都会是吗,哪个更熟练一点?

问题5:对OLAP有了解吗?知道Starrocks吗?

追问:你们工作中有用过Clickhouse和Doris吗?它们的区别是什么,分别适合用于什么场景?

问题6:你们怎么管理维度的,知道拉链表吗?

问题7:你学校里学过数据结构吗?数组和链表的区别是什么?

二面 - 问题1:上段实习的业务是什么,怎么做数仓分层

考察知识点

1. 结合银行实习场景,清晰梳理业务与数仓分层的关联,体现业务与技术的结合能力;2. 对数仓分层的具体实现、各层职责、设计逻辑的掌握,不局限于理论,贴合银行实操;3. 能说明分层设计的价值,体现数据治理思维和数仓建设的实操经验。

参考回答

我上一段实习是在银行的大数据与数据仓库部门,核心业务是围绕银行零售、对公、渠道等核心板块,搭建企业级数据仓库(EDW),整合各业务系统数据,规范数据口径,为监管报送、风险控制、经营分析等场景提供标准化数据支撑,这也是我做数仓分层的核心背景。结合银行的业务特性(强合规、高严谨、数据量大、多系统异构),我们严格按照“分层解耦、规范可控、复用高效”的原则,采用行业标准的四层分层架构,具体实现如下,每一层都贴合银行的业务需求和数据特点:1. ODS贴源层(操作数据存储层):核心是“保留原始数据、不做过多加工”,主要对接银行各业务源头系统,包括核心业务系统、信贷系统、信用卡系统、柜面系统等,将原始数据(结构化、半结构化)原样同步接入,仅做简单的格式转换(如日期格式统一),不做清洗、过滤,目的是保留数据原貌,便于后续问题回溯、数据核对,同时规避数据丢失风险,符合银行数据可追溯的合规要求。比如我们会将客户开户原始日志、交易明细原始数据、柜面业务办理记录等,全部同步至ODS层,按系统和日期分区存储。2. DWD明细清洗层(数据明细层):核心是“清洗、规范、脱敏”,基于ODS层数据,做数据质量优化和标准化处理,为后续分层提供干净、规范的明细数据。具体操作包括:去重(删除重复的交易记录)、补全(补全缺失的关键字段,如客户所属机构)、异常过滤(过滤无效交易,如金额为负、日期异常的数据)、口径转换(统一各系统的字段命名和数据格式,如将不同系统的“客户ID”统一命名并规范长度)、数据脱敏(对客户身份证号、手机号、银行卡号等敏感信息进行脱敏处理,符合金融数据安全合规要求)。这一层主要产出各主题域的明细数据表,比如客户明细、交易明细、账户明细等,是数仓的核心明细数据底座。3. DWS汇总层(数据汇总层):核心是“轻度汇总、提升复用”,基于DWD层明细数据,按主题域(客户、账户、交易、渠道等)做轻度汇总,计算公共指标,避免后续重复开发,提升数据查询效率。比如按客户维度汇总每日存款余额、交易笔数,按账户维度汇总月度流水,按渠道维度汇总每日业务办理量,这些汇总指标可直接支撑多个ADS层报表的开发,减少重复计算,同时降低大表查询的性能压力。这一层的汇总数据仍保留一定的粒度,可灵活支撑不同的业务需求。4. ADS应用层(数据应用层):核心是“面向业务、直接可用”,基于DWS层汇总数据,针对具体的业务需求,开发专用的报表表、指标表,直接支撑行内各部门使用。比如为合规部门开发监管报送指标表(如央行要求的存款余额报表、信贷投放报表),为风控部门开发反欺诈指标表(如客户异常交易指标),为经营分析部门开发经营指标表(如各机构营收报表、客户增长报表)。这一层的数据直接对接业务系统、报表工具,无需业务人员再做数据加工,贴合银行各部门的实际使用需求。整个分层设计的核心目的,是实现“数据解耦、质量可控、复用高效、合规可追溯”,既满足银行的合规要求,又能提升数仓的维护效率和数据服务能力。

补充回答注意要点

阅读全文

注册 立即解锁全文并访问全部文章: 网站会员 tier 专享.

订阅
已有账号? 登录

小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。