HDFS 全称为Hadoop Distributed File System,是 hadoop 分布式文件系统,具体来说,是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop 生态中各系统的存储服务。HDFS是Hadoop项目的核心子项目,为分布式计算中,数据存储管理的基础,HDFS是基于流数据模式访问和处理超大文件的需求被开发出来的,能够在廉价的商用服务器上运行。HDFS 具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征,这些特征使得HDFS为海量数据提供了不怕故障的存储,从而为超大数据集(Large Data Set)的应用处理带来了很多便利。
一、HDFS特征
高度容错性:HDFS 最核心的架构目标是,错误检测和快速、自动的恢复 。数据会自动保存多个副本。它通过增加副本的形式,而且就算某一副本丢失,HDFS也能自动恢复。
支持大规模数据集: HDFS 应用具有很大的数据集,可以支持整体上高的数据传输带宽,并且能够支撑数以千万集的文件。
支持流式读取数据: 一次写入,多次读取。而且文件一旦写入,就不能进行修改,只能追加。这样很好的保证了数据的一致性。
高吞吐量:吞吐量是指单位时间内完成的工作量。HDFS通过并行处理数据,从而大大减少了处理时间,实现了高吞吐量。
移动计算而非移动数据:一个应用的请求,如果离它操作的数据越近就会越高效,HDFS会把数据位置暴露给计算框架, 提供了将它们自己移动到数据附近的接口。
异构软硬件平台间的可移植性:平台的可移植性,方便用户也方便 HDFS 作为大规模数据应用平台的推广。
二、HDFS 常用命令参数
-help
|
输出这个命令参数手册
|
-ls
|
显示目录信息
|
-mkdir
|
在hdfs上创建目录
|
-moveFromLocal
|
从本地剪切粘贴到hdfs
|
-moveToLocal
|
从hdfs剪切粘贴到本地
|
--appendToFile
|
追加一个文件到已经存在的文件末尾
|
-cat
|
显示文件内容
|
-tail
|
显示一个文件的末尾
|
-text
|
以字符形式打印一个文件的内容
|
-chgrp、-chmod、-chown
|
同linux文件系统中的用法,对文件所属权限
|
-copyFromLocal
|
从本地文件系统中拷贝文件到hdfs路径去
|
-copyToLocal
|
从hdfs拷贝到本地
|
-cp
|
从hdfs的一个路径拷贝hdfs的另一个路径
|
-mv
|
在hdfs目录中移动文件
|
-get
|
等同于copyToLocal,就是从hdfs下载文件到本地
|
-getmerge
|
合并下载多个文件
|
-put
|
等同于copyFromLocal
|
-rm
|
删除文件或文件夹
|
-rmdir
|
删除空目录
|
-df
|
统计文件系统的可用空间信息
|
-du
|
统计文件夹的大小信息
|
-count
|
统计一个指定目录下的文件节点数量
|
-setrep
|
设置hdfs中文件的副本数量
|
三、HDFS工作机制
1. HDFS集群包括两大角色:NameNode、DataNode
2. NameNode负责管理整个文件系统的元数据
3. DataNode 负责管理用户的文件数据块
4. 文件会按照固定的大小(blocksize)切分成若干块后,分布式存储于若干台datanode上
5. 每一个文件块能够有多个副本,并存放在不同的datanode上
6. Datanode定期会向Namenode汇报自身保存的文件block信息,而namenode就会负责保持文件的副本数量
7. HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是以通过向namenode申请进行的
HDFS文件写入时:首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本
HDFS文件读取:将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件