gracejpw1117

很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦?

使用MSCK命令导入输入到hive表我们有时候会遇到很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦。 假设创建一个外部表,这个表在hdfs的order文件夹里,但是这个文件夹现在是空的。所以用select * 是没有数据的。 CREATE EXTERNAL TABLE order( order STRING , time STRING )

34.3921 2 1
  • 关注作者
  • 收藏
gracejpw1117

Hive SQL的分区表和分桶表

分区和分桶Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。分区表 所谓的分区表,指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置

24.7611 5 3
  • 关注作者
  • 收藏
shang9252

Hive中SELECT TOP N的方法(order by与sort by的区别)

SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。例如我们执行SQL:select a from ljntest01 order by a limit 10;控制台会打印出:Num

15.1820 3 3
  • 关注作者
  • 收藏
PGC123

sqoop从mysql导入到hive报错

ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConfsqoop从mysql导入到hive报错:18/08/22 13:30:53 ERROR tool.ImportTool: Impor

100.5918 3 4
  • 关注作者
  • 收藏
PGC123

hive中的分组聚合优化如何做?

hive中的分组聚合优化如何做?答: 分组 两个聚集函数不能有不同的DISTINCT列,以下表达式是错误的: INSERT OVERWRITE TABLE pv_gender_agg SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip)

58.9442 1 3
  • 关注作者
  • 收藏
PGC123

如何设置hive计算过程的reduce数目?

如何设置hive计算过程的reduce数目?答:reduce数目设置方式如下: 参数1:hive.exec.reducers.bytes.per.reducer=1G:每个reduce任务处理的数据量 参数2:hive.exec.reducers.max=999(0.95*TaskTracker数):每个任务最大的reduce数目 reducer数=min(参数2,总输

33.9199 1 0
  • 关注作者
  • 收藏
PGC123

hive如何通过控制map数量提高效率?

hive如何通过控制map数量提高效率?答:可以通过增加或减少map数量提高分析速度。增加、减少map数量的方式如下:减少map数目:   set mapred.max.split.size   set mapred.min.split.size   set mapred.min.split.size.per.node   set mapred.min.split.

0.0000 0 0
  • 关注作者
  • 收藏
PGC123

本地模式(小任务)的时候hive的优化点有哪些?

本地模式(小任务)的时候hive的优化点有哪些?答:本地模式(小任务)可以从以下几个参数入手job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)job的reduce数必须为0或者1 hi

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

hive 的通用优化有哪些?

hive 的通用优化有哪些?答:通用设置hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true:优化LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

hive分区和分桶的区别

hive分区和分桶的区别答:1、分区1)是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。2)那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字

33.9199 1 2
  • 关注作者
  • 收藏
PGC123

hive 内部表和外部表区别

hive 内部表和外部表区别答: 1、创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。 2、删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

Hive导出数据有几种方式?如何导出数据

Hive导出数据有几种方式?如何导出数据答: 1、用insert overwrite导出方式 1)、导出到本地: insert overwrite local directory ‘/home/robot/1/2’ rom format delimited fields terminated by ‘\t’ select * from staff;(递归创建目录)

33.9199 1 1
  • 关注作者
  • 收藏
PGC123

Hive中追加导入数据的4种方式是什么?请写出简要语法

Hive中追加导入数据的4种方式是什么?请写出简要语法答: 1、从本地导入: load data local inpath ‘/home/1.txt’ (overwrite)into table student; 2、从Hdfs导入: load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

数据分布在100台电脑中,如何高效统计出这批数据的top10

海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10答:方案1: 在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。 比如求TOP10大,我们首先取前10个元素调整成最小堆,如果发现,然后扫描后面的数据,并与堆顶元素比较,如果比堆顶元素大,那么用该元素替换堆顶,然后再调整为最小堆。 最后堆中的

66.5673 1 1
  • 关注作者
  • 收藏
PGC123

hive分区代码如何写?

写出将 text.txt 文件放入 hive 中 test 表‘2018-10-10’ 分区的语句,test 的分区字段是 l_date。答: LOAD DATA LOCAL INPATH '/your/path/test.txt' OVERWRITE INTO TABLE test PARTITION (l_date='2018-10-10')

43.5548 1 2
  • 关注作者
  • 收藏
PGC123

hive字符串面试题

写出hive中split、coalesce及collect_list函数的用法(可举例)。答: Split将字符串转化为数组。split('a,b,c,d' , ',') ==> ["a","b","c","d"]COALESCE(T v1, T v2, …) 返回参数中的第一个非空值;如果所有值都为 NULL,那么返回NULL。collect_list列出该字段所有的值,不去重

33.9132 1 2
  • 关注作者
  • 收藏
PGC123

关于null的问题

简要描述数据库中的 null,说出null在hive底层如何存储,并解释selecta.* from t1 a left outer join t2 b on a.id=b.id where b.id is null; 语句的含义答: null与任何值运算的结果都是null, 可以使用is null、is not null函数指定在其值为null情况下的取值。null在hive底层默认是

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

请说明hive中排序有哪些?区别是啥?

请说明hive中排序有哪些?区别是啥?答:hive中 的排序有Sort By,Order By,Cluster By,Distrbute By order by:会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)。只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。sort by:不是全局排序,其在数据进入reducer前完成排序。d

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

Multi-group by 是hive的一个非常好的特性

Multi-group by 是hive的一个非常好的特性,请举例说明? 答:from Ainsert overwrite table B select A.a, count(distinct A.b) group by A.ainsert overwrite table C select A.c, count(distinct A.b) group by A.c

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

请把下一语句用hive方式实现?

请把下一语句用hive方式实现?答: SELECT a.key,a.value FROM a WHERE a.key not in (SELECT b.key FROM b)答案:select a.key,a.value from a where a.key not exists (select b.key from b)

43.5548 1 3
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据