登录
首页精彩阅读Hadoop:伪分布模式启动步骤分解及HDFS基本操作
Hadoop:伪分布模式启动步骤分解及HDFS基本操作
2020-06-03
收藏

1、格式化HDFS

在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入

hdfs namenode -format          # 格式化hdfs

若出现successfully formatted字样,则说明格式化成功

2、启动hadoop

然后启动hadoop集群

start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs
start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功,如果出现下述进程,则证明启动成功

Jps

运行后显示有如下进程。

启动完成后,我们可使用Web端口检测集群运行情况,建议使用360或Chrome浏览器。

查看ResourceManager Web界面:

打开主机浏览器,然后输入下述网址:http://192.168.1.618:8088, 在该界面我们能查看集群任务运行情况

NameNode HDFS Web界面

打开主机浏览器,然后输入下述网址:http://192.168.152.128:50070,在该界面我们能查看集群hdfs基本运行情况

3、 测试运行

接下来,我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同,伪分布式运行时默认读取hdfs上文件,同时也会将输出结果保存在hdfs上,因此我们要提前在hdfs上创建文件夹,更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时,数据从HDFS上进行读取,在上传数据至HDFS之前,我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着,我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。

hdfs dfs -mkdir input
cd ~/hadoop
hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同,只是读取文件和输出文件保存均在HDFS中。

运行过程中可在8088端口查看mapreduce任务运行情况

运行完成后如下所示

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*

当然,我们也可进一步将结果取回本地

cd ~/hadoop
rm -r ./output # 先删除本地的 output 文件夹(如果存在)
hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令;缺点也是显而易见的发挥不了Hadoop设计初衷--分布式存储分布式计算

在下文中我将给大家介绍多节点的分布式集群搭建教程。

数据分析咨询请扫描二维码

客服在线
立即咨询