增加并行度可以解决数据倾斜吗？

Jul 23, 2025 3 分钟阅读

增加并行度可以解决数据倾斜吗？

在大数据面试、工作中，很多人一听到“数据倾斜”就脱口而出“加并行度！”但真相到底如何？其实，加并行度只对部分情况有效，根本上还得看你的数据倾斜属于哪一种。下面我来详细拆解一下👇

分场景分析（+举例）

1. 轻度数据倾斜：并行度可以缓解

解释：如果只是部分 key 的数据量稍微大一些，分布还算均匀，那么适当加大并行度，可以让更多节点分担任务，整体执行时间确实会变快。
举例：比如有100个用户的数据，某几个用户多一点，但最大用户也只占到总数据的5%。这时候，把并行度从5调到10，慢节点就被分担掉了，性能有提升。

2. 极端数据倾斜：并行度几乎没用

解释：当某个 key（或者极少数 key）占了大部分数据时，无论你加多少并行度，这个 key 依旧会全部分到某个节点，成为“超级拖慢者”。
举例：比如有100万订单，90%订单都来自同一个用户，这时候加到100个并行度，结果这100万个订单还是全跑到一个节点，其他节点全在摸鱼，没任何提升。

3. 节点资源不足型倾斜：有时有效

解释：有时候任务分配没问题，但某个节点本身性能较差，容易慢。这时适当加并行度（或者换更好的机器）可以缓解瓶颈，但并没有根治数据分布不均的问题。
举例：某台服务器内存较小，其他都正常，调大并行度后，可以让这个节点的压力变小，提升整体稳定性。

4. 任务本身超大/业务高峰型：可临时缓解

解释：遇到双11等业务高峰，所有节点压力都变大，这时提高并行度可以让任务更快执行，但如果有倾斜，还是会暴露问题。
举例：电商大促时，把Spark任务并行度从100加到300，确实整体变快，但如果有超级大卖家，那些节点还是拖后腿。

5. 数据分布动态变化型：需配合业务优化

解释：有些数据倾斜是动态的，比如每天热门商品不同，这种情况光靠加并行度没法“根治”，要动态调整 key 分布或预聚合等手段。
举例：短视频平台，热点视频不断变化，如果只加并行度，昨天解决了，明天又出现新热点，问题反复。

小万来解答

数仓知识点

About the author

小万来了

小万来了

小万和大树知识成长营地