分布式文件系统HDFS概念及工作机制的简单介绍-CDA数据分析师官网

热线电话：13121318867

分布式文件系统HDFS概念及工作机制的简单介绍

2020-07-17

HDFS 全称为Hadoop Distributed File System，是 hadoop 分布式文件系统，具体来说，是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop 生态中各系统的存储服务。HDFS是Hadoop项目的核心子项目，为分布式计算中，数据存储管理的基础，HDFS是基于流数据模式访问和处理超大文件的需求被开发出来的，能够在廉价的商用服务器上运行。HDFS 具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征，这些特征使得HDFS为海量数据提供了不怕故障的存储，从而为超大数据集(Large Data Set)的应用处理带来了很多便利。

一、HDFS 特征

高度容错性：HDFS 最核心的架构目标是，错误检测和快速、自动的恢复。数据会自动保存多个副本。它通过增加副本的形式，而且就算某一副本丢失，HDFS也能自动恢复。

支持大规模数据集： HDFS 应用具有很大的数据集，可以支持整体上高的数据传输带宽，并且能够支撑数以千万集的文件。

支持流式读取数据：一次写入，多次读取。而且文件一旦写入，就不能进行修改，只能追加。这样很好的保证了数据的一致性。

高吞吐量：吞吐量是指单位时间内完成的工作量。HDFS通过并行处理数据，从而大大减少了处理时间，实现了高吞吐量。

移动计算而非移动数据：一个应用的请求，如果离它操作的数据越近就会越高效，HDFS会把数据位置暴露给计算框架，提供了将它们自己移动到数据附近的接口。

异构软硬件平台间的可移植性：平台的可移植性，方便用户也方便 HDFS 作为大规模数据应用平台的推广。

二、HDFS 常用命令参数

-help	输出这个命令参数手册
-ls	显示目录信息
-mkdir	在hdfs上创建目录
-moveFromLocal	从本地剪切粘贴到hdfs
-moveToLocal	从hdfs剪切粘贴到本地
--appendToFile	追加一个文件到已经存在的文件末尾
-cat	显示文件内容
-tail	显示一个文件的末尾
-text	以字符形式打印一个文件的内容
-chgrp、-chmod、-chown	同linux文件系统中的用法，对文件所属权限
-copyFromLocal	从本地文件系统中拷贝文件到hdfs路径去
-copyToLocal	从hdfs拷贝到本地
-cp	从hdfs的一个路径拷贝hdfs的另一个路径
-mv	在hdfs目录中移动文件
-get	等同于copyToLocal，就是从hdfs下载文件到本地
-getmerge	合并下载多个文件
-put	等同于copyFromLocal
-rm	删除文件或文件夹
-rmdir	删除空目录
-df	统计文件系统的可用空间信息
-du	统计文件夹的大小信息
-count	统计一个指定目录下的文件节点数量
-setrep	设置hdfs中文件的副本数量