京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Hadoop有一个名为“HDFS”的分布式文件系统,它的设计目的是提供一个高容错,且能部署在廉价硬件的分布式系统;它的设计参照了Google的GFS(Google分布式文件系统);它能支持高吞吐量,适合大规模数据集应用。
HDFS上的文件被划分为以固定块大小的多个分块(默认为64MB,如此大是为了最小化寻址开销),每个块作一个独立的存储单元。
这样做有两个好处:第一可以存储容量大于单一磁盘容量的文件;第二大大简化了存储子系统的设计(只需要管理块,而且块的元数据并不需要与块一同存储)。将每个块复制到少数几个独立的机器上(默认为3个),可以确保在块、磁盘或机器发生故障后数据不会丢失(即发现一个块不可用,系统会从其他地方读取另一个复本,同时重新复制该复本到一台正常的机器上)。下图展示了这些特性。
HDFS集群由一个NameNode(管理者)和多个dataNode(工作者)组成。HDFS解决了单点问题,HDFS集群的管理者是非常重要。NameNode管理文件系统的命名空间,它维护着文件系统树及整颗树内所有的文件和目录,同时也记录着每个文件中各个块到DataNode。同时,NameNode(管理者)包含主要节点(Primary)和备份节点(Stand by),如果Primary出现问题,Stand By可自动接替Primary继续工作。DataNode主要负责响应文件系统客户端发出的读写请求,同时还将在NameNode的指导下负责执行文件的创建、删除以及复制。
Hadoop的MapReduce(分布式计算模型)处理框架正是基于HDFS构建,它充分利用集群的并行优势来处理存储在HDFS上的数据文件。一个MapReduce任务在集群上以任务跟踪(TaskTracker)执行。每个TaskTracker被Job监控,当发现一个TaskTracker执行失败是,JobTracker就会将该任务分配到其他机器上运行。
在运行MapReduce作业经常会遇到各种问题,为了能进行必要的优化,理解HDFS原理还是很有必要的。下面介绍比较常见的一种情况:小文件如何拖累MapReduce作业及可采取的优化措施。
在MapReduce作业中,Hadoop将其输入数据划分成等长的小数据块,称为输入分片。Hadoop为每个分片构建一个map任务,或者说每一个map操作只处理一个输入分片。每个分片被划分为若干个记录,每条记录就是一个键值对,map一个接一个地处理记录。输入分片包括自己的大小和存储位置,存储位置供MapReduce系统将map任务尽量放在分片附近,分片大小用于排序分片,以便优先处理最大的分片,从而最小化作业运行时间。
在一般的MapReduce作业中,使用最多的输入数据格式通常是存储在HDFS上的文件。Hadoop自带的FileInputFormat类是所有使用文件作为其数据源实现的基类。它提供两个功能:一个用于指出作业的输入文件位置;一个是输入文件生成分片的实现代码段。
一个文件如果大于HDFS的块大小,那么它会被分割成多个块,存储在不同的位置。如果分片的大小大于HDFS的块大小,那么一个分片就会从不同位置读取,需要通过网络传输到map任务节点,与使用本地数据运行整个map任务相比,这种方法效率更低。另一方面,如果分片切分得太小,那么管理分片的总时间和构建map任务的总时间将决定作业的整个执行时间。因此,对于大多数作业来说,一个合理的分片大小趋向于HDFS的一个块的大小,即64MB。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23