登录
首页精彩阅读Hadoop文件系统
Hadoop文件系统
2017-06-06
收藏

Hadoop文件系统

Hadoop是用Java写的,本小节要深入探索Hadoop的FileSystem类,与Hadoop的某一文件系统进行交互的API。虽然主要关注的是HDFS的实例,即DistributedFileSystem,但总体来说,还是应该集成FileSystem抽象类,并编写代码,以保持其在不同文件系统中的可移植性。这对测试用户编写的程序非常重要,例如,用户可以使用本地文件系统中的存储数据快速进行测试。

Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop中的一个文件系统接口,并且该抽象类有几个具体实现,见表5-1。

Hadoop对文件系统提供了许多接口,它一般使用URI方案来选取合适的文件系统实例进行交互。举例来说,在前一小节中遇到的文件系统命令行解释器可以操作所有的Hadoop文件系统命令。要想列出本地文件系统根目录下的文件,可以输入以下命令:

%Hadoop fs-ls file:///

尽管运行的MapReduce程序可以访问任何文件系统(有时也很方便),但在处理大数据集时,仍然需要选择一个具有数据本地优化的分布式文件系统,如HDFS或KFS。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询