reduceByKey 与 groupByKey 与 aggregateByKey 与 combineByKey 之间的火花区别

groupByKey()`只是根据键对数据集进行分组。当 RDD 尚未分区时，它会导致数据洗牌。
reduceByKey()类似于分组 + 聚合。我们可以说 reduceBykey() 相当于 dataset.group(...).reduce(...)。与groupByKey()` 不同的是，它会减少数据的洗牌。
aggregateByKey()` 逻辑上与 reduceByKey() 相同，但它允许以不同类型返回结果。例如，输入为 (1,2)、(1,4)，输出为 (1,"six")。它还会在每个键的开头使用零值。

注意 : 相同之处在于它们都是宽运算。

Rajat Mishra · Answer 3 · 2017-04-12T09:25:47+00:00

ReduceByKey reduceByKey(func, [numTasks])-

合并数据，使每个分区的每个键都至少有一个值。然后进行洗牌，并通过网络发送到某个特定的执行器，以执行某些操作，如 reduce。

GroupByKey- groupByKey([numTasks])

它不会合并键值，而是直接进行洗牌处理在这里，大量数据会被发送到每个分区，几乎与初始数据相同。

每个键值的合并是在洗牌后进行的。在这里，大量数据存储在最终工作节点上，因此导致内存不足问题。

AggregateByKey - aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) 它与 reduceByKey 类似，但可以在执行聚合时提供初始值。

使用 `reduceByKey

此外，建议不要使用 groupByKey 而使用 reduceByKey。详细信息请参阅此处。

您还可以参考问题以更详细地了解 reduceByKey 和 aggregateByKey 的用法。