大魔王泛泛

2020-02-20   阅读量: 652

大数据

reduceBykey与groupByKey的区别

扫码加入数据分析学习群

reduceByKey:reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算

groupByKey: groupByKey会对每一个RDD中的value值进行操作形成一个序列,此操作发生在reduce端,从而会将所有的数据通过网络进行传输,造成不必要的浪费

所以建议在进行大量数据的reduce操作时使用reduceByKey

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子