数仓知识点

数仓知识点

29 篇文章 数据仓库知识点整理

数据仓库为什么要分层

数据仓库为什么要分层

概述 在企业数字化转型过程中,数据仓库作为支撑业务决策的重要基础设施,承载着海量的业务数据。然而,如果将所有数据都放在一个层级中处理,就像把生产车间、仓储区和展示厅混在一起,必然会造成混乱。因此,数据仓库需要分层设计,就像建造一栋大楼需要设计不同的楼层一样,每一层都有其特定的功能和作用。 典型的数据仓库分层架构 根据数据处理的逻辑步骤,典型的数据仓库分为以下几个层次: 1. ODS层(原始数据层) 功能定位:

大数据面试题—Spark

大数据面试题—Spark

1. 简述什么是Spark ? Spark 是一个开源的大数据处理框架,它被设计来进行高速度、通用性和易用性的大规模数据处理。Spark 最初由加州大学伯克利分校的AMPLab 开发,后来成为Apache软件基金会的顶级项目。 Spark 的主要特点包括: 1. 快速性:Spark 使用了内存计算技术,相较于Hadoop的MapReduce,它能更快地处理大规模数据集。这是因为MapReduce在数据处理过程中频繁地将中间结果写入磁盘,而Spark尽可能地将数据保留在内存中处理,

Hadoop数据仓库知识点整理

Hadoop数据仓库知识点整理

Hadoop大数据仓库完整知识点详解 知识点1:集群的最主要瓶颈 ⭐⭐⭐ 核心结论 磁盘IO是集群的最主要瓶颈 详细分析 为什么是磁盘IO? 1. 硬件性能对比 * CPU运算速度:GHz级别(10^9次/秒) * 内存访问速度:纳秒级别(10^-9秒) * 网络传输速度:Gbps级别

小万和大树知识成长营地

注册成功!

欢迎回来,已成功登录。

你已成功订阅 小万和大树知识成长营地。

成功!请查收登录邮件。

成功!账单信息已更新。

账单信息未更新。