Hive-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

PGC123

hive 窗口函数适用于什么场景？

hive 窗口函数适用于什么场景？答：应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询

13.4272

3

2

0

关注作者

收藏

PGC123

HIVE的窗口函数是什么？

HIVE的窗口函数是什么？答：窗口函数在和当前行相关的一组表行上执行计算。这相当于一个可以由聚合函数完成的计算类型。但不同于常规的聚合函数，使用的窗口函数不会导致行被分组到一个单一的输出行；行保留其独立的身份。在后台，窗口函数能够访问的不止查询结果的当前行。

0.0017

1

1

0

关注作者

收藏

PGC123

简单的描述一下hbase 与 hive 的区别

简单的描述一下hbase 与 hive 的区别是什么?答：Hbase(Hadoop database) Hbase是基于Hadoop的数据库，他的特点是基于列式存储，非常适合稀疏矩阵数据的存储，而且hbase对小数据量的随机查询也很擅长，实时性很高。Hive 是一种运行在大数据平台上的数据仓库工具，他可以将SQL语句转换为mpareduce或者spark的作业，非常适合批量数据的查询计算工

0.0000

0

3

0

关注作者

收藏

PGC123

hive怎么用子查询作自连接呢？

SELECT tb2.name FROM( SELECT tb1.season, tb1.name, ROW_NUMBER() OVER( ORDER BY SUBSTR(tb1.season, 2, 4)

0.0000

0

3

0

关注作者

收藏

PGC123

sqoop向mysql导入数据的时候报错

sqoop向mysql导入数据的时候报错：error ="无法分配内存" （error=12）答：这是系统内存不足导致的Java虚拟机无法分配内存，可以使用top命令查看一下操作系统内存剩余情况，如果允许给虚拟机多分配一些内存。

0.0000

0

3

0

关注作者

收藏

PGC123

hive --service metastore 干啥的？

hive --service metastore 命令是干啥的？答：理解这个命令之前需要知道hive元数据库的配置方式。hive metastore有两类配置方法：本地模式与远程模式。本地模式：可以使用自带derby，也可以使用MySQL等关系型数据库。他们都与hive部署在同一个节点上使用derby与MySQL作为元数据库的区别是： der

6.0509

1

3

0

关注作者

收藏

PGC123

Hive初始化失败

HIVE初始化错误，报错信息如下图所示：答：从初始化命令来看，hive的元数据库应该是MySQL，但是从输出的日志信息来看却是用的derby数据库，应该是hive-site.xml文件配置错误所致。

0.0000

0

2

0

关注作者

收藏

PGC123

hive连接MySQL时有ssl警告

在hive连接MySQL时有ssl警告，警告内容如下：WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45 , 5.6.26 and 5.7.6 requirements SSL connection must

0.0000

0

3

0

关注作者

收藏

291294878

order by：可以指定desc 降序 asc 升序 order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。sort by ：对分区内的数据进行排序sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置ma

0.0000

0

2

0

关注作者

收藏

291294878

Hive数据仓库于数据库的异同

(1）由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处（2）数据存储位置。 hdfs raw local fs（3）数据格式。分隔符（4）数据更新。hive读多写少。Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。INSERT INTO … VALU

9.7428

1

4

0

关注作者

收藏

291294878

hive表关联查询，如何解决数据倾斜的问题?

倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。解决方案1>.参数调节：

9.7428

1

2

0

关注作者

收藏

291294878

hive和HBASE区别有哪些？

1、hive是sql语言，通过数据库的方式来操作hdfs文件系统，为了简化编程，底层计算方式为mapreduce。 2、hive是面向行存储的数据库。 3、Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。 4、HBase为查询而生的，它通过组织起节点內所有机器的內存，提供一個超大的內存Hash表。5、hbase不是关系型数据库，而是一

0.0000

0

5

0

关注作者

收藏

291294878

Hive如何进行采样

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样，下面分别学习。桶表抽样所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。TABLESAMPLE子句允许用户编写用于数据抽样而不是整个表的查询，该子句出现F

0.0000

0

2

0

关注作者

收藏

291294878

Hive中orderby和sortby排序的区别

Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在HADOOP环境下很难对数据进行全局排序，如果在HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败

0.0000

0

4

0

关注作者

收藏

291294878

Hbase和Hive的差别是什么？

Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：1.Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等2.Hive：Hive是Hadoop数据仓库，严格来

35.8263

3

0

0

关注作者

收藏

291294878

Hive有哪几种文件格式，分别有什么特点？

TextFile：Hive默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2、Snappy等使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。SequenceFile：SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以的形式序列化到文件中。这种二进制

0.0000

0

4

0

关注作者

收藏

291294878

hive如何创建动态分区表？

如果用上述的静态分区，插入的时候必须首先要知道有什么分区类型，而且每个分区写一个load data，太烦人。使用动态分区可解决以上问题，其可以根据查询得到的数据动态分配到分区里。其实动态分区与静态分区区别就是不指定分区目录，由系统自己选择。0）开启动态分区功能set hive.exec.dynamic.partition=true;//使用动态分区set hive.exec.dynamic

296.3047

2

2

0

关注作者

收藏

291294878

JOIN ON后面能不能接OR？

join on后面的条件可以加and，但是不能加or。怎么理解呢？join on后面接的本来应该是一个连接条件，如果加and的话，我们可以理解为让连接条件更加严谨，但是加or的话会出现报错，因为on是最基本的连接条件，放宽连接条件的话，join就会无法完成。以下是错误示范：select t1.a,t1.b,t2.a,t2.bfrom t1left outer join t2on t1.a

0.0000

0

3

0

关注作者

收藏

291294878

HIVE中索引、分区、分桶的区别？

① 索引和分区最大的区别就是索引不分割数据库，分区分割数据库。索引其实就是拿额外的存储空间换查询时间，但分区已经将整个大数据库按照分区列拆分成多个小数据库了。② 分区和分桶最大的区别就是分桶随机分割数据库，分区是非随机分割数据库。分桶是按照列的哈希函数进行分割的，相对比较平均；而分区是按照列的值来进行分割的，容易造成数据倾斜。分桶是对应不同的文件（细粒度），分区是对应不同的文件夹（粗

0.0000

0

4

0

关注作者

收藏

291294878

hive报错如下，怎么解决？

Exception in thread "main"java.lang.RuntimeException: java.lang.IllegalArgumentException:java.net.URISyntaxException: Relative path in absolute URI:${system:java.io.tmpdir}/${system:user.name}解决方案：

0.0000

0

2

0

关注作者

收藏

1234>

CDA考试动态

CDA报考指南