PGC123

hive 窗口函数适用于什么场景?

hive 窗口函数适用于什么场景?答:应用场景:(1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询

13.4272 3 2
  • 关注作者
  • 收藏
PGC123

HIVE的窗口函数是什么?

HIVE的窗口函数是什么?答:窗口函数在和当前行相关的一组表行上执行计算。 这相当于一个可以由聚合函数完成的计算类型。但不同于常规的聚合函数, 使用的窗口函数不会导致行被分组到一个单一的输出行;行保留其独立的身份。 在后台,窗口函数能够访问的不止查询结果的当前行。

0.0017 1 1
  • 关注作者
  • 收藏
PGC123

简单的描述一下hbase 与 hive 的区别

简单的描述一下hbase 与 hive 的区别是什么?答:Hbase(Hadoop database) Hbase是基于Hadoop的数据库,他的特点是基于列式存储,非常适合稀疏矩阵数据的存储,而且hbase对小数据量的随机查询也很擅长,实时性很高。Hive 是一种运行在大数据平台上的数据仓库工具,他可以将SQL语句转换为mpareduce或者spark的作业,非常适合批量数据的查询计算工

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

hive怎么用子查询作自连接呢?

SELECT tb2.name FROM( SELECT tb1.season, tb1.name, ROW_NUMBER() OVER( ORDER BY SUBSTR(tb1.season, 2, 4)

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

sqoop向mysql导入数据的时候报错

sqoop向mysql导入数据的时候报错:error ="无法分配内存" (error=12) 答:这是系统内存不足导致的Java虚拟机无法分配内存,可以使用top命令查看一下操作系统内存剩余情况,如果允许给虚拟机多分配一些内存。

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

hive --service metastore 干啥的?

hive --service metastore 命令是干啥的?答:理解这个命令之前需要知道hive元数据库的配置方式。hive metastore有两类配置方法:本地模式与远程模式。 本地模式:可以使用自带derby,也可以使用MySQL等关系型数据库。他们都与hive部署在同一个节点上 使用derby与MySQL作为元数据库的区别是: der

6.0509 1 3
  • 关注作者
  • 收藏
PGC123

Hive初始化失败

HIVE初始化错误,报错信息如下图所示: 答:从初始化命令来看,hive的元数据库应该是MySQL,但是从输出的日志信息来看却是用的derby数据库,应该是hive-site.xml文件配置错误所致。

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

hive连接MySQL时有ssl警告

在hive连接MySQL时有ssl警告,警告内容如下:WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45 , 5.6.26 and 5.7.6 requirements SSL connection must

0.0000 0 3
  • 关注作者
  • 收藏
291294878

Hive4种排序

order by:可以指定desc 降序 asc 升序 order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。sort by :对分区内的数据进行排序sort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置ma

0.0000 0 2
  • 关注作者
  • 收藏
291294878

Hive数据仓库于数据库的异同

(1)由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言, 再无类似之处(2)数据存储位置。 hdfs raw local fs(3)数据格式。 分隔符(4)数据更新。hive读多写少。Hive中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。INSERT INTO … VALU

9.7428 1 4
  • 关注作者
  • 收藏
291294878

hive表关联查询,如何解决数据倾斜的问题?

倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。解决方案1>.参数调节:

9.7428 1 2
  • 关注作者
  • 收藏
291294878

hive和HBASE区别有哪些?

1、hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2、hive是面向行存储的数据库。 3、Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。 4、HBase为查询而生的,它通过组织起节点內所有机器的內存,提供一個超大的內存Hash表 。5、hbase不是关系型数据库,而是一

0.0000 0 5
  • 关注作者
  • 收藏
291294878

Hive如何进行采样

当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样,下面分别学习。桶表抽样所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。TABLESAMPLE子句允许用户编写用于数据抽样而不是整个表的查询,该子句出现F

0.0000 0 2
  • 关注作者
  • 收藏
291294878

Hive中orderby和sortby排序的区别

Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在HADOOP环境下很难对数据进行全局排序,如果在HADOOP上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败

0.0000 0 4
  • 关注作者
  • 收藏
291294878

Hbase和Hive的差别是什么?

Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:1.Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等2.Hive:Hive是Hadoop数据仓库,严格来

35.8263 3 0
  • 关注作者
  • 收藏
291294878

Hive有哪几种文件格式,分别有什么特点?

TextFile:Hive默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2、Snappy等使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFile:SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以的形式序列化到文件中。这种二进制

0.0000 0 4
  • 关注作者
  • 收藏
291294878

hive如何创建动态分区表?

如果用上述的静态分区,插入的时候必须首先要知道有什么分区类型,而且每个分区写一个load data,太烦人。使用动态分区可解决以上问题,其可以根据查询得到的数据动态分配到分区里。其实动态分区与静态分区区别就是不指定分区目录,由系统自己选择。0)开启动态分区功能set hive.exec.dynamic.partition=true;//使用动态分区set hive.exec.dynamic

296.3047 2 2
  • 关注作者
  • 收藏
291294878

JOIN ON后面能不能接OR?

join on后面的条件可以加and,但是不能加or。怎么理解呢?join on后面接的本来应该是一个连接条件,如果加and的话,我们可以理解为让连接条件更加严谨,但是加or的话会出现报错,因为on是最基本的连接条件,放宽连接条件的话,join就会无法完成。以下是错误示范:select t1.a,t1.b,t2.a,t2.bfrom t1left outer join t2on t1.a

0.0000 0 3
  • 关注作者
  • 收藏
291294878

HIVE中索引、分区、分桶的区别?

① 索引和分区最大的区别就是索引不分割数据库,分区分割数据库。索引其实就是拿额外的存储空间换查询时间,但分区已经将整个大数据库按照分区列拆分成多个小数据库了。② 分区和分桶最大的区别就是分桶随机分割数据库,分区是非随机分割数据库。分桶是按照列的哈希函数进行分割的,相对比较平均;而分区是按照列的值来进行分割的,容易造成数据倾斜。分桶是对应不同的文件(细粒度),分区是对应不同的文件夹(粗

0.0000 0 4
  • 关注作者
  • 收藏
291294878

hive报错如下,怎么解决?

Exception in thread "main"java.lang.RuntimeException: java.lang.IllegalArgumentException:java.net.URISyntaxException: Relative path in absolute URI:${system:java.io.tmpdir}/${system:user.name}解决方案:

0.0000 0 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据