字节跳动大数据开发一面20250818
(适用于国内,海外求职)
(适用于国内,海外求职)
1. 完整数仓的搭建流程 2. 一个spark任务2,3h执行,stage id 优化方案 3. ods接入的交易系统数据质量差,通过dwd层进行过滤,怎么解决? 4. 慢节点 5. rss 6. clickhouse和doris的区别、使用性能上的差异 7.
1. 计网:TCP3次握手,4次挥手 2. hive2server0 3. yarn的工作流程 4. 数据倾斜。 5. Spark 和 Hive 的区别 6. Yarn on client 和yarn
1. AI的召回率和准确率怎么计算 2. DWM和DWS的区别 3. Hadoop 有哪些组件 4. Mapreduce 的过程 5. 数据质量监控 6. 数据治理怎么理解 7. 维护表总共有多少张,设置数据监控的有多少。 8. 多天分区数据处理,UDF函数报错,
HBase 作为一个面向列的、分布式的、可伸缩的 NoSQL 数据库,被设计用于在商用硬件集群上处理海量(PB 级别)的稀疏数据。其核心价值在于能够对庞大的数据集提供实时的随机读写能力。要充分发挥 HBase 的性能,深刻理解其内部数据流转机制至关重要。本文旨在深入剖析 HBase 最核心的生命线——读写流程,从一个客户端请求的发起,
各种深挖 -— 这个我就不细写了,前面有很多给出了具体问题的简历深挖,大家可以去看看 1. dwm表与dwd表的粒度 2. 事实表的创建 3. 表数据的体量:dwd表:几千条、dwm表:曝光 几万条,旺季几十万条 4. 看板加载时长缩短做了什么 5.
开篇:当你的数据库开始“发福” 话说,咱们虚构一个快速发展的社交应用“ConnectSphere”。一开始,用户表设计在MySQL里,岁月静好。但随着业务迭代,产品经理一天一个想法,用户属性字段从10个激增到500个!什么兴趣爱好、教育背景、工作经历、常访问的页面、点赞过的商品... 好家伙,一个比一个能加。 很快,
1. 数仓分层的好处 2. 分层有没有什么坏处 3. 看板加载时长缩短做了什么 4. 数据治理只是涉及过下线表吗 5. 数据倾斜讲讲 6. 大表与大表join的数据倾斜---分桶 7. 详细介绍一下上面说的分桶 8. 分桶和shuffle的分区有什么区别? 9. 在map阶段读取文件比较慢,排查思路? 10.
1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,
1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?
《HBase架构解析:RegionServer、Master与ZooKeeper》
第一个实习,我给出的答案是我辅导的一个姐妹~ 他说数据迁移这边总是感觉说不太好,数据迁移确实是一个容易费力不讨好的工作,所以我给他写出来了~ 也欢迎其他姐妹投稿~(适用于国内,海外求职)
里面有一些开放性问题是我自己写的,供参考~
本篇旨在深度剖析 Apache Hive 的“中枢神经系统”——Metastore。作为 Hive 架构的基石,Metastore 的重要性无论在日常开发还是性能调优中都无可替代。本文将从核心架构与工作原理和Schema 管理与演进两大维度出发,系统讲解 Metastore 的部署模式、内部数据结构、以及基于“读时模式”(Schema-on-Read)
深挖简历部分略过了,但是我觉得这部分很重要,辅导的学生说他不想被写进来,所以看看剩下的吧~ (适用于国内,海外求职)
这里面有深挖项目部分,我给略过了,该文章限时公开~
本文包括答案以及相关知识点。
前言 对于每一位志在大厂的数据工程师而言,Apache Hive 是其技术简历上绕不开的一环。然而,从“会用”到“精通”,横亘着一道名为“性能调优”的巨大鸿沟。这些痛点你是否似曾相识? * 面对动辄上百TB、万亿行的用户行为日志,一个核心的 D+1 报表任务需要跑上数小时。
前言 本宝典旨在为广大求职者和大数据从业者提供一份全面、系统、且深入的Apache Hive学习与复习指南。我们整合了关于Hive的四个核心主题——核心架构与工作原理、数据模型与组织方式、HQL性能调优实战、以及主流查询引擎横向对比——并将它们组织成四个逻辑连贯的章节。 从理解Hive是什么、如何工作,到掌握如何高效地组织数据,再到精通如何优化查询性能,最后到洞悉其在整个大数据生态中的位置,本宝典将引导您构建一个完整而扎实的Hive知识体系。无论您是准备面试,还是希望在工作中深化对Hive的理解,这份文档都将是您不可或缺的参考资料。
2025.8.25 (适用于国内,海外求职)
1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗
这里面的最后一个问题“项目中遇到的难点”,因为不知道具体的项目,所以我根据我辅导的一个学员的项目写的,大家可以按照这篇文章的逻辑进行自己思考
字节跨部门转正三面(适用于国内,海外求职)
京东大数据开发,社招题目,但是整体看下来其实校招也可以看,但是这里面涉及到了很多数据质量的问题,建议新手看的话从这些去考虑什么样的数据模型是质量好,多思考思考。