
之前的文章中我们已经将master节点的网络IP、hostname文件、hosts文件配置完成,接下来还有hadoop相关配置文件需要修改。今天我们来讲master节点hadoop的配置。
1、hdfs-site.xml
在hadoop的配置文件中与HDFS(hadoop分布式文件系统)相关的是hdfs-core.xml文件。在伪分布集群中只有一个节点,因此此节点即要有NameNode功能也要有DataNode功能。在工作环境中这两个是不会在一个节点上的,在我们的多节点分布式集群中master只运行NameNode因此需在hdfs-site.xml文件中删除DataNode相关配置。
打开虚拟机在终端中输入cd hadoop/etc/hadoop 命令进入hadoop配置文件目录。
终端输入命令vim hdfs-site.xml进入vim编辑界面,按下图步骤删除原来伪分布集群配置的DataNode相关配置,并将数据冗余数量设置为2。
输入i进入编辑模式,编辑后的文件内容如下所示。
最后退出编辑模式,保存并退出。
2、core-site.xml
在core-site.xml中指定一个节点运行hdfs服务。在之前伪分布集群中只有一个节点,因此我们使用的是localhost,如今在集群中有三个节点,我们约定使用master。
在终端中输入vim core-site.xml按下图操作修改配置文件。
修改后内容如下所示
记得退出并保存。
在yarn-site.xml里可以修改与资源管理模块YARN相关的一些配置。
终端中输入 vim yarn-site.xml进行以下更改,将资源调度管理任务放置于master节点上
最终修改后的文件内容如下图所示。
4、mapred-site.xml
进行以下更改,主要添加mapreduce运行历史记录监控端口和网页端口。
同样,在终端输入vim mapred-site.xml开始编辑配置文件,配置内容如下所示
最后保存并退出。
5、slaves
slaves文件指明哪些节点运行DateNode进程,这里我们的集群中运行DataNode进程的节点有slave1、slave2。因此需将这两节点保存到slaves文件中。
在终端中输入 vim slaves命令编辑文件,编辑后的文件内容如下图所示。
最后保存slaves文件并退出编辑。到这里master节点上的hadoop相关配置已经完成了。
接下来我们要通过克隆master及slave1虚拟机来扩展集群。
6、生成slave1节点
通过克隆master 生成slave1节点的过程与之前克隆伪分布节点的操作是一致的这里不再赘述,唯一区别是在执行到下图步骤时注意将虚拟机名称设置为slave1并选择正确的存储位置方便管理。还有一点,被克隆的虚拟机一定要关机状态才可以被克隆。
slave1节点与master节点在hostname、IP地址、Hadoop配置这几个方面是有些差异的,在复制好slave1节点之后需进行配置。
6.1 配置IP地址
在前面文章中提到过slave1节点IP地址应设置为固定的值:192.168.79.12。详细的配置方法步骤已经在配置master节点时介绍过,配置slave1节点时可以参考一下。修改完成后的配置结果如下图所示,点击save保存即可。
6.2、修改hostname
保存并退出
6.3、修改Hadoop配置项
hdfs-site.xml
保存并退出之后重启slave1节点查看配置是否生效。
7、生成slave2节点
Slave2与slave1在Hadoop相关配置内容上是一致的,因此通过克隆slave1节点来生成slave2可以减少一些操作步骤。
克隆slave1节点时的操作步骤同样参考之前文章内容,区别是执行到下图步骤时记得更改虚拟机名称为slave2并更改存储目录(存储目录自己定义)。
7.1、配置IP地址
克隆完成后打开slave2虚拟机并配置其IP地址。配置过程与之前配置master节点IP过程一致,只是IP地址需改为192.168.79.13结果如下图所示,点击save保存即可。
更改Hostname,在终端中输入sudo vim /etc/hostname并回车执行,根据提示输入密码
输入i编辑hostname文件,文件内容如下所示为slave2,然后保存退出。
重启虚拟机测试配置是否生效,重启命令为sudo reboot
slave2重新启动后打开终端,输入命令ifconfig查看IP设置及虚拟机名,如下图所示配置已经生效。
到这里我们的hadoop集群安装配置完成。接下来的文章我会给大家介绍一下hadoop集群如如何启动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-07-30SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-07-30人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-07-30MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-29左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-29CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-29CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-29解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-29解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-29鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-29用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-29从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-29CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-29解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-29用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-29从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-292025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-29PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-29t 检验与 Wilcoxon 检验:数据差异分析的两大核心方法 在数据分析的广阔领域中,判断两组或多组数据之间是否存在显著差异是一项 ...
2025-07-29PowerBI 添加索引列全攻略 在使用 PowerBI 进行数据处理与分析时,添加索引列是一项极为实用的操作技巧。索引列能为数据表中的每 ...
2025-07-29