Hive-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

gracejpw1117

很多小文件需要导入到一张hive表里面，但是一个个导入非常麻烦?

使用MSCK命令导入输入到hive表我们有时候会遇到很多小文件需要导入到一张hive表里面，但是一个个导入非常麻烦。假设创建一个外部表，这个表在hdfs的order文件夹里，但是这个文件夹现在是空的。所以用select * 是没有数据的。 CREATE EXTERNAL TABLE order( order STRING , time STRING )

34.3921

2

1

0

关注作者

收藏

gracejpw1117

Hive SQL的分区表和分桶表

分区和分桶Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区表　所谓的分区表，指的就是将数据按照表中的某一个字段进行统一归类，并存储在表中的不同的位置

24.7611

5

3

0

关注作者

收藏

shang9252

Hive中SELECT TOP N的方法(order by与sort by的区别)

SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字，再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce，如果表的数据量很大，那么order by就会力不从心。例如我们执行SQL：select a from ljntest01 order by a limit 10;控制台会打印出：Num

15.1820

3

3

0

关注作者

收藏

PGC123

sqoop从mysql导入到hive报错

ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConfsqoop从mysql导入到hive报错：18/08/22 13:30:53 ERROR tool.ImportTool: Impor

100.5918

3

4

0

关注作者

收藏

PGC123

hive中的分组聚合优化如何做？

hive中的分组聚合优化如何做？答：分组两个聚集函数不能有不同的DISTINCT列，以下表达式是错误的： INSERT OVERWRITE TABLE pv_gender_agg SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip)

58.9442

1

3

0

关注作者

收藏

PGC123

如何设置hive计算过程的reduce数目？

如何设置hive计算过程的reduce数目？答：reduce数目设置方式如下：参数1：hive.exec.reducers.bytes.per.reducer=1G：每个reduce任务处理的数据量参数2：hive.exec.reducers.max=999(0.95*TaskTracker数)：每个任务最大的reduce数目 reducer数=min(参数2,总输

33.9199

1

0

0

关注作者

收藏

PGC123

hive如何通过控制map数量提高效率？

hive如何通过控制map数量提高效率？答：可以通过增加或减少map数量提高分析速度。增加、减少map数量的方式如下：减少map数目：　　set mapred.max.split.size 　　set mapred.min.split.size 　　set mapred.min.split.size.per.node 　　set mapred.min.split.

0.0000

0

0

0

关注作者

收藏

PGC123

本地模式（小任务）的时候hive的优化点有哪些？

本地模式（小任务）的时候hive的优化点有哪些？答：本地模式（小任务）可以从以下几个参数入手job的输入数据大小必须小于参数：hive.exec.mode.local.auto.inputbytes.max(默认128MB)job的map数必须小于参数：hive.exec.mode.local.auto.tasks.max(默认4)job的reduce数必须为0或者1 hi

0.0000

0

2

0

关注作者

收藏

PGC123

hive 的通用优化有哪些？

hive 的通用优化有哪些？答：通用设置hive.optimize.cp=true：列裁剪 hive.optimize.prunner：分区裁剪 hive.limit.optimize.enable=true：优化LIMIT n语句 hive.limit.row.max.size=1000000： hive.limit.optimize.limit.file=

0.0000

0

3

0

关注作者

收藏

PGC123

hive分区和分桶的区别

hive分区和分桶的区别答：1、分区1）是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。2）那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字

33.9199

1

2

0

关注作者

收藏

PGC123

hive 内部表和外部表区别

hive 内部表和外部表区别答： 1、创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。 2、删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

0.0000

0

2

0

关注作者

收藏

PGC123

Hive导出数据有几种方式？如何导出数据

Hive导出数据有几种方式？如何导出数据答： 1、用insert overwrite导出方式 1）、导出到本地： insert overwrite local directory ‘/home/robot/1/2’ rom format delimited fields terminated by ‘\t’ select * from staff;(递归创建目录)

33.9199

1

1

0

关注作者

收藏

PGC123

Hive中追加导入数据的4种方式是什么？请写出简要语法

Hive中追加导入数据的4种方式是什么？请写出简要语法答： 1、从本地导入： load data local inpath ‘/home/1.txt’ (overwrite)into table student; 2、从Hdfs导入： load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into

0.0000

0

3

0

关注作者

收藏

PGC123

数据分布在100台电脑中，如何高效统计出这批数据的top10

海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10答：方案1: 在每台电脑上求出TOP10，可以采用包含10个元素的堆完成(TOP10小，用最大堆，TOP10大，用最小堆)。比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的

66.5673

1

1

0

关注作者

收藏

PGC123

hive分区代码如何写？

写出将 text.txt 文件放入 hive 中 test 表‘2018-10-10’ 分区的语句，test 的分区字段是 l_date。答： LOAD DATA LOCAL INPATH '/your/path/test.txt' OVERWRITE INTO TABLE test PARTITION (l_date='2018-10-10')

43.5548

1

2

0

关注作者

收藏

PGC123

hive字符串面试题

写出hive中split、coalesce及collect_list函数的用法（可举例）。答： Split将字符串转化为数组。split('a,b,c,d' , ',') ==> ["a","b","c","d"]COALESCE(T v1, T v2, …) 返回参数中的第一个非空值；如果所有值都为 NULL，那么返回NULL。collect_list列出该字段所有的值，不去重

33.9132

1

2

0

关注作者

收藏

PGC123

关于null的问题

简要描述数据库中的 null，说出null在hive底层如何存储，并解释selecta.* from t1 a left outer join t2 b on a.id=b.id where b.id is null; 语句的含义答： null与任何值运算的结果都是null, 可以使用is null、is not null函数指定在其值为null情况下的取值。null在hive底层默认是

0.0000

0

4

0

关注作者

收藏

PGC123

请说明hive中排序有哪些？区别是啥？

请说明hive中排序有哪些？区别是啥？答：hive中的排序有Sort By，Order By，Cluster By，Distrbute By order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。sort by：不是全局排序，其在数据进入reducer前完成排序。d

0.0000

0

1

0

关注作者

收藏

PGC123

Multi-group by 是hive的一个非常好的特性

Multi-group by 是hive的一个非常好的特性，请举例说明？答：from Ainsert overwrite table B select A.a, count(distinct A.b) group by A.ainsert overwrite table C select A.c, count(distinct A.b) group by A.c

0.0000

0

1

0

关注作者

收藏

PGC123

请把下一语句用hive方式实现？

请把下一语句用hive方式实现？答： SELECT a.key,a.value FROM a WHERE a.key not in (SELECT b.key FROM b)答案：select a.key,a.value from a where a.key not exists (select b.key from b)

43.5548

1

3

0

关注作者

收藏

123…4>

CDA考试动态

CDA报考指南