【问答专栏】第一期
学历问题:投不到简历和学历直接相关,但只要拿到面试机会,更看重你的表现和潜力,别太焦虑。考不考算法? 为什么一面总挂?! AI冲击会被淘汰吗? 不会八股也能进大厂吗?
学历问题:投不到简历和学历直接相关,但只要拿到面试机会,更看重你的表现和潜力,别太焦虑。考不考算法? 为什么一面总挂?! AI冲击会被淘汰吗? 不会八股也能进大厂吗?
Hadoop大数据仓库完整知识点详解 知识点1:集群的最主要瓶颈 ⭐⭐⭐ 核心结论 磁盘IO是集群的最主要瓶颈 详细分析 为什么是磁盘IO? 1. 硬件性能对比 * CPU运算速度:GHz级别(10^9次/秒) * 内存访问速度:纳秒级别(10^-9秒) * 网络传输速度:Gbps级别
1. 项目中为什么考虑用两个平台来做? 2. 为什么你们白天做实时,晚上做离线,白天有离线任务吗?晚上有实时任务吗? 3. 你们两个平台统计的指标有什么不同,你们数据量多大? 4. 有多少表? 5. 表都存在hive里吗? 6. 实时数据存在哪里? 7. 解释下ODS,DWD等数据分层? 8.
💡 Spark的提交任务流程?原理? 🚀 实习项目中你是采取的是什么模式去提交的? ⚙️ 怎么配置Executor? 📝 你了解Spark的一些配置吗? 🔄 TaskManager和Executor的区别? 💾 写入MySQL怎么做?方式? 📖 知识图谱中常见的查询命令? 🗄️ 除了Neo4j图形数据库,还了解其他数据库吗? 💻 有用Java用过UDF吗? 🧩 UDF类型? HashMap的底层结构? 🌳 链表+红黑树有了解吗?为什么需要这样设计? ⚡ Spark和MR区别? 💽 MR写磁盘会排序吗? 🔁 Map阶段到Reduce阶段发生了什么?
1. 🧐对 Spark 的机制技术原理的了解,如 RDD 机制、DAG 机制等。 2. 🔍MapReduce 和 Spark 的区别。 3. 🔎Spark 宽依赖的情况及相关特性,如是否会写磁盘,在什么情况下写磁盘,写磁盘的过程(
🏗️ 详细说明分层架构的实现思路及原因 🔄 技术方案优化空间及具体改进措施 🔗 开链/闭链的核心判断字段设计 💾 数仓层面可做的存储/查询优化方案 👥 多团队协作时人员分工与排期管理经验 🤝 业务沟通机制的建设建议 🔍 倾斜问题的发现与定位方法 🎯 分桶/加盐之外的解决方案 🔄 Join场景与Group By场景的倾斜处理差异 📊 全链路数据治理的关键监控节点哦 🎯 项目细节问题 • 项目细节过多,涉及具体操作(如某层如何实现、原因分析、优化可能性)
本文档是在《数据仓库面试题》基础上进行的精炼和内容增强,旨在提供更具深度和实操性的数据仓库面试准备及项目理解参考。增加了针对复杂面试题的解答思路提示,并优化了项目案例的呈现结构。