登录
首页大数据时代分布式文件系统HDFS概念及工作机制的简单介绍
分布式文件系统HDFS概念及工作机制的简单介绍
2020-07-17
收藏

HDFS 全称为Hadoop Distributed File System,是 hadoop 分布式文件系统,具体来说,是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop 生态中各系统的存储服务。HDFSHadoop项目的核心子项目,为分布式计算中,数据存储管理的基础,HDFS是基于流数据模式访问和处理超大文件的需求被开发出来的,能够在廉价的商用服务器上运行。HDFS 具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征,这些特征使得HDFS为海量数据提供了不怕故障的存储,从而为超大数据集(Large Data Set)的应用处理带来了很多便利。

一、HDFS特征

高度容错性:HDFS 最核心的架构目标是,错误检测和快速、自动的恢复 。数据会自动保存多个副本。它通过增加副本的形式,而且就算某一副本丢失,HDFS也能自动恢复。

支持大规模数据集: HDFS 应用具有很大的数据集,可以支持整体上高的数据传输带宽,并且能够支撑数以千万集的文件。

支持流式读取数据: 一次写入,多次读取。而且文件一旦写入,就不能进行修改,只能追加。这样很好的保证了数据的一致性。

高吞吐量:吞吐量是指单位时间内完成的工作量。HDFS通过并行处理数据,从而大大减少了处理时间,实现了高吞吐量。

移动计算而非移动数据:一个应用的请求,如果离它操作的数据越近就会越高效,HDFS会把数据位置暴露给计算框架, 提供了将它们自己移动到数据附近的接口。

异构软硬件平台间的可移植性:平台的可移植性,方便用户也方便 HDFS 作为大规模数据应用平台的推广。

二、HDFS 常用命令参数

 

-help   输出这个命令参数手册
-ls   显示目录信息
-mkdir    在hdfs上创建目录
-moveFromLocal     从本地剪切粘贴到hdfs
-moveToLocal       从hdfs剪切粘贴到本地
--appendToFile   追加一个文件到已经存在的文件末尾
-cat   显示文件内容  
-tail       显示一个文件的末尾
-text   以字符形式打印一个文件的内容
-chgrp、-chmod、-chown 同linux文件系统中的用法,对文件所属权限
-copyFromLocal   从本地文件系统中拷贝文件到hdfs路径去
-copyToLocal     从hdfs拷贝到本地
-cp 从hdfs的一个路径拷贝hdfs的另一个路径
-mv 在hdfs目录中移动文件
-get 等同于copyToLocal,就是从hdfs下载文件到本地
-getmerge 合并下载多个文件
-put 等同于copyFromLocal
-rm 删除文件或文件夹
-rmdir 删除空目录
-df 统计文件系统的可用空间信息
-du 统计文件夹的大小信息
-count 统计一个指定目录下的文件节点数量
-setrep 设置hdfs中文件的副本数量

 

三、HDFS工作机制

1. HDFS集群包括两大角色:NameNode、DataNode

2. NameNode负责管理整个文件系统的元数据

3. DataNode 负责管理用户的文件数据块

4. 文件会按照固定的大小(blocksize)切分成若干块后,分布式存储于若干台datanode上

5. 每一个文件块能够有多个副本,并存放在不同的datanode上

6. Datanode定期会向Namenode汇报自身保存的文件block信息,而namenode就会负责保持文件的副本数量

7. HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是以通过向namenode申请进行的

HDFS文件写入时:首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本

HDFS文件读取:将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

数据分析咨询请扫描二维码

客服在线
立即咨询