291294878

2018-10-19   阅读量: 1017

大数据 Hive

HIVE中索引、分区、分桶的区别?

扫码加入数据分析学习群

① 索引和分区最大的区别就是索引不分割数据库,分区分割数据库。

索引其实就是拿额外的存储空间换查询时间,但分区已经将整个大数据库按照分区列拆分成多个小数据库了。

② 分区和分桶最大的区别就是分桶随机分割数据库,分区是非随机分割数据库。

分桶是按照列的哈希函数进行分割的,相对比较平均;而分区是按照列的值来进行分割的,容易造成数据倾斜

分桶是对应不同的文件(细粒度),分区是对应不同的文件夹(粗粒度)

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子