hive如何通过控制map数量提高效率？

PGC123

2019-06-27 阅读量: 1315

答：可以通过增加或减少map数量提高分析速度。增加、减少map数量的方式如下：

减少map数目：

　　set mapred.max.split.size

　　set mapred.min.split.size

　　set mapred.min.split.size.per.node

　　set mapred.min.split.size.per.rack

　　set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

增加map数目：

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

假设有这样一个任务：

select data_desc, count(1), count(distinct id),sum(case when …),sum(case when ...),sum(…) from a group by data_desc

如果表a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。

set mapred.reduce.tasks=10;

　　create table a_1 as select * from a distribute by rand(123);

这样会将a表的记录，随机的分散到包含10个文件的a_1表中，再用a_1代替上面sql中的a表，则会用10个map任务去完成。每个map任务处理大于12M（几百万记录）的数据，效率肯定会好很多。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子