Spark-源码系列-SparkCore-Shuffle-ShuffleWrite-Writer-BypassMergeSortShuffleWriter
一、概述
BypassMergeSortShuffleWriter 是一个相对更有效的 writer,它绕过了合并排序步骤,直接将一个分区写入一个单独的文件中,分区的数量必须很小,才能使这个 writer 在不引起 shuffle 文件数量失控的情况下工作。因此,只有当分区的数量小于 bypassMergeThreshold(默认为200)并且没有 map 侧的聚合时,选择 BypassMergeSortShuffleWriter。BypassMergeSortShuffleWriter 适用于 map 端不需要在持久化数据之前进行聚合、排序等操作的场景。
二、实现
三、Write
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Joker!
评论
ValineTwikoo