热线电话:13121318867

登录
2020-02-20 阅读量: 866
reduceBykey与groupByKey的区别

reduceByKey:reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算

groupByKey: groupByKey会对每一个RDD中的value值进行操作形成一个序列,此操作发生在reduce端,从而会将所有的数据通过网络进行传输,造成不必要的浪费

所以建议在进行大量数据的reduce操作时使用reduceByKey

0.0000
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子