Hadoop：伪分布模式启动步骤分解及HDFS基本操作-CDA数据分析师官网

热线电话：13121318867

Hadoop：伪分布模式启动步骤分解及HDFS基本操作

2020-06-03

1、格式化HDFS

在运行伪分布式前，需先对NameNode进行格式化，在命令行中输入

hdfs namenode -format          # 格式化hdfs

若出现successfully formatted字样，则说明格式化成功

2、启动hadoop

然后启动hadoop集群

start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs

start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功，如果出现下述进程，则证明启动成功

Jps

运行后显示有如下进程。

启动完成后，我们可使用Web端口检测集群运行情况，建议使用360或Chrome浏览器。

查看ResourceManager Web界面：

打开主机浏览器，然后输入下述网址：http://192.168.1.618:8088，在该界面我们能查看集群任务运行情况

NameNode HDFS Web界面

打开主机浏览器，然后输入下述网址：http://192.168.152.128:50070，在该界面我们能查看集群hdfs基本运行情况

3、测试运行

接下来，我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同，伪分布式运行时默认读取hdfs上文件，同时也会将输出结果保存在hdfs上，因此我们要提前在hdfs上创建文件夹，更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时，数据从HDFS上进行读取，在上传数据至HDFS之前，我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着，我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。

hdfs dfs -mkdir input

cd ~/hadoop

hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同，只是读取文件和输出文件保存均在HDFS中。

运行过程中可在8088端口查看mapreduce任务运行情况

运行完成后如下所示

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*

当然，我们也可进一步将结果取回本地

cd ~/hadoop

rm -r ./output # 先删除本地的 output 文件夹（如果存在）

hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机

cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令；缺点也是显而易见的发挥不了Hadoop设计初衷--分布式存储与分布式计算。

在下文中我将给大家介绍多节点的分布式集群搭建教程。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

HDFS Hadoop NameNode 分布式计算分布式存储分布式集群

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Hbase：安装及模式配置指南

下一篇python可视化：matplotlib绘制直方图进阶篇

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Hadoop：伪分布模式启动步骤分解及HDFS基本操作

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载