HBase 基础概念: 列式存储与表设计

开篇:当你的数据库开始“发福” 话说,咱们虚构一个快速发展的社交应用“ConnectSphere”。一开始,用户表设计在MySQL里,岁月静好。但随着业务迭代,产品经理一天一个想法,用户属性字段从10个激增到500个!什么兴趣爱好、教育背景、工作经历、常访问的页面、点赞过的商品... 好家伙,一个比一个能加。 很快,

阿里饿了么大数据开发2025.3.14

1. 在整个数仓模型构建中分了3个数据域,其中每个数据域对应的业务过程都是什么? dim表没开发过 2. DWD层的开发步骤 3. 维度退化 4. DWM公皇WM是在开发公用层吗、跟DWD层的区别 5. DWM是在做一些业务的串联还是基于一个业务? 6. 看板代码1000降到100,你的贡献 7. 在做DWM中间层替换时要注意的核心点 8. 做完新看板替换旧看板时要考虑什么东西,

快手大数据开发一面2025.4.2

1. 建模理论:星型模型和雪花模型的区别,优缺点 2. 刚刚说的规范化中的”规范“是什么意思 3. 你觉得目前常用的数仓体系下星型模型和雪花模型哪个更合适? 4. 雪花模型适用的场景? 5. 事实表分哪几种类型? 6. 讲一下在AI猎头项目里具体做什么?项目做什么?你做了什么? 7. 数据域是怎么划分的?

Hive 元数据 Metastore 详解:表、分区与 Schema 管理

本篇旨在深度剖析 Apache Hive 的“中枢神经系统”——Metastore。作为 Hive 架构的基石,Metastore 的重要性无论在日常开发还是性能调优中都无可替代。本文将从核心架构与工作原理和Schema 管理与演进两大维度出发,系统讲解 Metastore 的部署模式、内部数据结构、以及基于“读时模式”(Schema-on-Read)

如何用 Hive 优化查询:分区、分桶与索引

前言 对于每一位志在大厂的数据工程师而言,Apache Hive 是其技术简历上绕不开的一环。然而,从“会用”到“精通”,横亘着一道名为“性能调优”的巨大鸿沟。这些痛点你是否似曾相识? * 面对动辄上百TB、万亿行的用户行为日志,一个核心的 D+1 报表任务需要跑上数小时。

Hive面试宝典:从核心架构到调优实战

前言 本宝典旨在为广大求职者和大数据从业者提供一份全面、系统、且深入的Apache Hive学习与复习指南。我们整合了关于Hive的四个核心主题——核心架构与工作原理、数据模型与组织方式、HQL性能调优实战、以及主流查询引擎横向对比——并将它们组织成四个逻辑连贯的章节。 从理解Hive是什么、如何工作,到掌握如何高效地组织数据,再到精通如何优化查询性能,最后到洞悉其在整个大数据生态中的位置,本宝典将引导您构建一个完整而扎实的Hive知识体系。无论您是准备面试,还是希望在工作中深化对Hive的理解,这份文档都将是您不可或缺的参考资料。

蚂蚁数据开发面试题目面经

1 介绍一下自己 2 介绍一下Hadoop生态圈的技术 3 看你做了财务数据,能说说你们财务数据是怎么建设的吗 4 平时有遇到数据不准和脏数据问题吗,怎么解决的,起夜处理过吗 5 对于数据倾斜和数据治理怎么弄的 6 看你做过实时,为啥要做实时任务,离线的数据不能解决吗,实时成本怎么控制,延迟了怎么解决,有遇到过延迟问题吗

字节大数据开发跨部门转正

一面(8.27) * 实习内容 还在职吗 实习期间主要干什么 和你对接的同学有哪些 产运和算法同学怎么使用你产出的数据 数据集底层用什么技术栈 你写SQL任务的时候是怎么优化代码的,写代码的时候哪些地方需要注意 有自己搭建过看板吗 知道SLA基线吗,有主动了解过吗 * 大数据技术问题 一个spark任务怎么优化 发现写好的spark任务运行的很慢要怎么办 数据倾斜怎么处理 如果任务在读文件的时候运行很慢怎么办 内存利用率过低怎么办

宽德投资数据开发/大数据开发面试题目

1. 自我介绍 2. dqc怎么配的? 3. sla怎么配的? 4. mysql发生数据的增删改的时候,你怎么同步? 5. 你说用Flink cdc完成了数据同步,你讲讲具体怎么操作? 6. 了不了解redis? 7. redis为什么快 8. redis的底层结构是什么? 9.

字节大数据开发

1 介绍自己,讲几个你熟悉的项目 2 数据倾斜怎么处理 3 spark的宽窄依赖 4 数仓模型分层 分层有啥好处 5 有了解过画像吗,自己怎么实现的,有运用算法吗 6 数仓数据质量监控和数据治理怎么实现 7 有做过实时吗,实时怎么实现数据不延迟,如果稳定可靠产出实时指标

美团一面(日常实习)

1.自我介绍 2.项目拷打穿插八股: a.你在哪些功能中引入了新的组件? b.ES相比于MySQL好在哪? c.什么场景下用MySQL查找,什么场景下用ES? d.大数据量用ES就一定更好吗? e.你知道在分布式部署下ES可能出现哪些问题吗? f.讲讲RocketMQ在你的项目中的使用逻辑? g.你认为在你的理解中RocketMQ最重要的特性是什么?(顺序性,

小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。