登录
首页大数据时代Hive基本介绍及安装应用方法
Hive基本介绍及安装应用方法
2020-07-14
收藏

Hive是一款基于Hadoop数据仓库工具,通常被用于数据提取、转化、加载,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive最大的优点是学习成本低,能够使用类似SQL语句实现快速MapReduce统计,这样使得MapReduce变得更加简洁,不需要开发专门的MapReduce应用程序。

一、Hive的特点

1.扩展性

Hive可以自由的扩展集群的规模,通常情况下不需要重启服务。

2.延展性

Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

3.容错性

良好的容错性,节点出现问题SQL仍可完成执行

二、HIVE的安装部署

建议使用 1.x 版本

只需要在一个节点上安装(Master节点)

具体步骤

1. 下载

hive.apache.org

拷贝到linux

winscp

设置共享文件夹

2.解压

tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/programfile/

配置环境变量(/etc/profile)

export HIVE_HOME=/opt/programfile/hive

export PATH=$ PATH:$HIVE_HOME/bin

使新的配置生效:source /etc/profile

3.配置hive

(1) 改名

cp hive-env.sh.template hive-env.sh

(2)修改配置(指定hadoop的路径,因为hive基于Hadoop运行的)

HADOOP_HOME=/opt/programfile/hadoop

export HIVE_CONF_DIR=/opt/programfile/hive/conf

(3)开启集群

start-dfs.sh

start-yarn.sh

配置数据仓库的存储路径(数据最终存储在HDFS上)(在HDFS上配置的路径)

注意:此路径需要具有写权限

创建数据存储目录:

hdfs dfs -mkdir /tmp

hdfs dfs -mkdir -p /user/hive/warehouse

修改权限:

hdfs dfs -chmod 777 /tmp

hdfs dfs -chmod 777 /user/hive/warehouse

数据分析咨询请扫描二维码

客服在线
立即咨询