腾讯-PCG-内容平台-数据工程-一面(2025.3.10)
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
19 篇文章
来自优秀学员~ 前三个是针对他简历提出的问题,大家可以看看学习思路,这位很厉害,2025年秋招已经提前批拿到了offer,30k
限时开放~
引言 Hive 在数据仓库中的核心作用与调优必要性 Hive 作为 Hadoop 生态系统中的核心数据仓库工具,提供了一种用户友好的 SQL-like 查询语言(HiveQL 或 HQL),将结构化查询转换为底层计算框架的任务执行计划,支持 PB 级海量数据的存储、查询和分析。在 Hadoop
1. 引言 1.1 报告背景与目的 随着数字广告从传统媒体向多渠道、程序化投放演变,用户转化路径日益复杂,广告主面临着前所未有的效果评估难题。传统那句经典的营销吐槽——“我知道我的广告预算有一半被浪费了,但我不知道是哪一半”——在数字时代被进一步放大。广告归因模型作为核心方法论,旨在科学量化每个营销触点(广告点击、展示、社交媒体曝光、邮件互动等)对最终转化的贡献,
1. 拷打项目 -— 略 2. 有什么高吞吐写入的组件(doris,ck。。) 3. 为什么支持高吞吐呢(LSM,写缓存,多节点) 4. clickhouse不适合哪些场景(join,高频微批写入,高qps) 5. clcikhouse和doris适合点查吗,
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. 计网:TCP3次握手,4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~
里面有一些开放性问题是我自己写的,供参考~
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ 限时公开
这里面有深挖项目部分,我给略过了,该文章限时公开~
2025.8.25
1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗
这里面的最后一个问题“项目中遇到的难点”,因为不知道具体的项目,所以我根据我辅导的一个学员的项目写的,大家可以按照这篇文章的逻辑进行自己思考
字节跨部门转正三面