快手-大数据开发-二面(2025.4.8)
限时开放~
限时开放~
开篇:当你的数据库开始“发福” 话说,咱们虚构一个快速发展的社交应用“ConnectSphere”。一开始,用户表设计在MySQL里,岁月静好。但随着业务迭代,产品经理一天一个想法,用户属性字段从10个激增到500个!什么兴趣爱好、教育背景、工作经历、常访问的页面、点赞过的商品... 好家伙,一个比一个能加。 很快,
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
《HBase架构解析:RegionServer、Master与ZooKeeper》
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~
里面有一些开放性问题是我自己写的,供参考~
本篇旨在深度剖析 Apache Hive 的“中枢神经系统”——Metastore。作为 Hive 架构的基石,Metastore 的重要性无论在日常开发还是性能调优中都无可替代。本文将从核心架构与工作原理和Schema 管理与演进两大维度出发,系统讲解 Metastore 的部署模式、内部数据结构、以及基于“读时模式”(Schema-on-Read)
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ 限时公开
这里面有深挖项目部分,我给略过了,该文章限时公开~
本文包括答案以及相关知识点。
前言 对于每一位志在大厂的数据工程师而言,Apache Hive 是其技术简历上绕不开的一环。然而,从“会用”到“精通”,横亘着一道名为“性能调优”的巨大鸿沟。这些痛点你是否似曾相识? * 面对动辄上百TB、万亿行的用户行为日志,一个核心的 D+1 报表任务需要跑上数小时。
前言 本宝典旨在为广大求职者和大数据从业者提供一份全面、系统、且深入的Apache Hive学习与复习指南。我们整合了关于Hive的四个核心主题——核心架构与工作原理、数据模型与组织方式、HQL性能调优实战、以及主流查询引擎横向对比——并将它们组织成四个逻辑连贯的章节。 从理解Hive是什么、如何工作,到掌握如何高效地组织数据,再到精通如何优化查询性能,最后到洞悉其在整个大数据生态中的位置,本宝典将引导您构建一个完整而扎实的Hive知识体系。无论您是准备面试,还是希望在工作中深化对Hive的理解,这份文档都将是您不可或缺的参考资料。
2025.8.25
1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗
这里面的最后一个问题“项目中遇到的难点”,因为不知道具体的项目,所以我根据我辅导的一个学员的项目写的,大家可以按照这篇文章的逻辑进行自己思考
字节跨部门转正三面
京东大数据开发,社招题目,但是整体看下来其实校招也可以看,但是这里面涉及到了很多数据质量的问题,建议新手看的话从这些去考虑什么样的数据模型是质量好,多思考思考。
一面(8.27) * 实习内容 还在职吗 实习期间主要干什么 和你对接的同学有哪些 产运和算法同学怎么使用你产出的数据 数据集底层用什么技术栈 你写SQL任务的时候是怎么优化代码的,写代码的时候哪些地方需要注意 有自己搭建过看板吗 知道SLA基线吗,有主动了解过吗 * 大数据技术问题 一个spark任务怎么优化 发现写好的spark任务运行的很慢要怎么办 数据倾斜怎么处理 如果任务在读文件的时候运行很慢怎么办 内存利用率过低怎么办
1. 自我介绍 2. dqc怎么配的? 3. sla怎么配的? 4. mysql发生数据的增删改的时候,你怎么同步? 5. 你说用Flink cdc完成了数据同步,你讲讲具体怎么操作? 6. 了不了解redis? 7. redis为什么快 8. redis的底层结构是什么? 9.
1 介绍自己,讲几个你熟悉的项目 2 数据倾斜怎么处理 3 spark的宽窄依赖 4 数仓模型分层 分层有啥好处 5 有了解过画像吗,自己怎么实现的,有运用算法吗 6 数仓数据质量监控和数据治理怎么实现 7 有做过实时吗,实时怎么实现数据不延迟,如果稳定可靠产出实时指标
1.自我介绍 2.项目拷打穿插八股: a.你在哪些功能中引入了新的组件? b.ES相比于MySQL好在哪? c.什么场景下用MySQL查找,什么场景下用ES? d.大数据量用ES就一定更好吗? e.你知道在分布式部署下ES可能出现哪些问题吗? f.讲讲RocketMQ在你的项目中的使用逻辑? g.你认为在你的理解中RocketMQ最重要的特性是什么?(顺序性,
很多大数据开发初学者做完 SSG 电商离线数仓项目后,都会卡在三个特别具体的坎上: 1. 不知道怎么写简历—— 对着自己做过的操作,只会列 “用 Hive 建了 3 层表”“用 Spark 算过复购率”,没说清这些操作有什么用,写出来的内容像 “技术清单”,面试官扫一眼就过;