分布式文件系统HDFS概念及工作机制的简单介绍-CDA数据分析师官网

分布式文件系统HDFS概念及工作机制的简单介绍

2020-07-17

HDFS 全称为Hadoop Distributed File System，是 hadoop 分布式文件系统，具体来说，是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop 生态中各系统的存储服务。HDFS是Hadoop项目的核心子项目，为分布式计算中，数据存储管理的基础，HDFS是基于流数据模式访问和处理超大文件的需求被开发出来的，能够在廉价的商用服务器上运行。HDFS 具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征，这些特征使得HDFS为海量数据提供了不怕故障的存储，从而为超大数据集(Large Data Set)的应用处理带来了很多便利。

一、HDFS 特征

高度容错性：HDFS 最核心的架构目标是，错误检测和快速、自动的恢复。数据会自动保存多个副本。它通过增加副本的形式，而且就算某一副本丢失，HDFS也能自动恢复。

支持大规模数据集： HDFS 应用具有很大的数据集，可以支持整体上高的数据传输带宽，并且能够支撑数以千万集的文件。

支持流式读取数据：一次写入，多次读取。而且文件一旦写入，就不能进行修改，只能追加。这样很好的保证了数据的一致性。

高吞吐量：吞吐量是指单位时间内完成的工作量。HDFS通过并行处理数据，从而大大减少了处理时间，实现了高吞吐量。

移动计算而非移动数据：一个应用的请求，如果离它操作的数据越近就会越高效，HDFS会把数据位置暴露给计算框架，提供了将它们自己移动到数据附近的接口。

异构软硬件平台间的可移植性：平台的可移植性，方便用户也方便 HDFS 作为大规模数据应用平台的推广。

二、HDFS 常用命令参数

-help	输出这个命令参数手册
-ls	显示目录信息
-mkdir	在hdfs上创建目录
-moveFromLocal	从本地剪切粘贴到hdfs
-moveToLocal	从hdfs剪切粘贴到本地
--appendToFile	追加一个文件到已经存在的文件末尾
-cat	显示文件内容
-tail	显示一个文件的末尾
-text	以字符形式打印一个文件的内容
-chgrp、-chmod、-chown	同linux文件系统中的用法，对文件所属权限
-copyFromLocal	从本地文件系统中拷贝文件到hdfs路径去
-copyToLocal	从hdfs拷贝到本地
-cp	从hdfs的一个路径拷贝hdfs的另一个路径
-mv	在hdfs目录中移动文件
-get	等同于copyToLocal，就是从hdfs下载文件到本地
-getmerge	合并下载多个文件
-put	等同于copyFromLocal
-rm	删除文件或文件夹
-rmdir	删除空目录
-df	统计文件系统的可用空间信息
-du	统计文件夹的大小信息
-count	统计一个指定目录下的文件节点数量
-setrep	设置hdfs中文件的副本数量

三、HDFS工作机制

1. HDFS集群包括两大角色：NameNode、DataNode

2. NameNode负责管理整个文件系统的元数据

3. DataNode 负责管理用户的文件数据块

4. 文件会按照固定的大小(blocksize)切分成若干块后，分布式存储于若干台datanode上

5. 每一个文件块能够有多个副本，并存放在不同的datanode上

6. Datanode定期会向Namenode汇报自身保存的文件block信息，而namenode就会负责保持文件的副本数量

7. HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是以通过向namenode申请进行的

HDFS文件写入时：首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本

HDFS文件读取：将要读取的文件路径发送给namenode，namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

HDFS Hadoop 特征 NameNode 分布式计算分布式存储大数据

数据分析咨询请扫描二维码

上一篇你想知道的箱型图的基础知识，都在这里了

下一篇pandas是如何检测和处理缺失数据的？

分布式文件系统HDFS概念及工作机制的简单介绍

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...