热线电话：13121318867

首页大数据时代大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

2024-10-13

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动
- 解压缩 Hadoop安装包及设置环境变量
- 创建数据存放目录
- 配置文件设置、环境变量、主从节点指定
- 复制 Hadoop到其它各个节点
- 推荐学习书籍

Hadoop安装、配置和启动

下载Hadoop，我们使用的版本是Hadoop2.7.3

解压缩 Hadoop安装包及设置环境变量

解压缩 Hadoop安装包，并且对安装目录进行重命名

cd /opt/linuxsir
tar -zxvf hadoop-2.7.3.tar.gz 
 
ls
mv hadoop-2.7.3 /opt/linuxsir/hadoop

在192.168.31.131虚拟机上编辑/root/.bashrc文件，然后复制到192.168.31.132、192.168.31.133

echo "" >> /root/.bashrc
echo "export HADOOP_PREFIX=/opt/linuxsir/hadoop" >> /root/.bashrc
echo "export HADOOP_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_COMMON_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop" >> /root/.bashrc
echo "export HADOOP_HDFS_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_MAPRED_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_YARN_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export PATH=$PATH:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin" >> /root/.bashrc
 
echo "export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"" >> /root/.bashrc
echo "export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native" >> /root/.bashrc
 
echo "export CLASSPATH=$CLASSPATH:/opt/linuxsir/hadoop/lib/*" >> /root/.bashrc
 
cat /root/.bashrc

\在192.168.31.131上，复制/root/.bashrc到132和133
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
\在192.168.31.131上，在131/132/133三台机器上运行/root/.bashrc，刷新环境
cd 
source /root/.bashrc
ssh root@192.168.31.132 source /root/.bashrc
ssh root@192.168.31.133 source /root/.bashrc

创建数据存放目录

cd /opt/linuxsir/hadoop                  \进入/opt/linuxsir/hadoop目录
rm -rf /opt/linuxsir/hadoop/tmp
rm -rf /opt/linuxsir/hadoop/hdfs
mkdir /opt/linuxsir/hadoop/tmp           \创建tmp目录
mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name \创建hdfs的data、name子目录
 
\还要针对hd-slave1,hd-slave2等两个节点上执行上述命令，然后再初始化hdfs
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.132 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
 
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.133 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name

配置文件设置、环境变量、主从节点指定

对若干配置文件进行设置，保证Hadoop能够正常启动。

(1) 主要的配置文件包括HADOOP_HOME目录下的

etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/yarn-site.xml
etc/hadoop/mapred-site.xml等文件

(2) 并且为如下文件配置环境变量

etc/hadoop/hadoop-env.sh
etc/hadoop/yarn-env.sh
etc/hadoop/mapred-env.sh等

(3)master和slave

masters
slaves

配置文件设置

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的core-site.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///opt/linuxsir/hadoop/tmp</value>
</property>
 
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hd-master:9000</value><!-- NameNode URI -->
</property>
 
<property>
    <name>io.file.buffer.size</name>
    <value>131702</value>
</property>
</configuration>

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的hdfs-site.xml文件，内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/name</value> <!-- 本机name目录for NameNode -->
</property>
 
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/data</value> <!-- 本机data目录for DataNode -->
</property>
 
<property>
    <name>dfs.replication</name> <!-- 数据块副本数量 -->
    <value>2</value>
</property>
 
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
 
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hd-master:9001</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop目录下，复制mapred-site.xml.template到mapred-site.xml，并且进行编辑

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value> <!--yarn or yarn-tez-->
</property>
 
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hd-master:10020</value>
</property>
 
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hd-master:19888</value>
</property>
<property>
    <name>mapreduce.map.memory.mb</name> <!-- memory for map task -->
    <value>64</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name> <!-- memory for reduce task -->
    <value>128</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>32</value>
</property>
 
<property>
    <name>mapreduce.map.java.opts</name> <!-- settings for JVM map task -->
    <value>-Xms128m -Xmx256m</value>
</property>
<property>
    <name>mapreduce.reduce.java.opts</name> <!-- settings for JVM reduce task -->
    <value>-Xms128m -Xmx256m</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop编辑yarn-site.xml文件，对YARN资源管理器的ResourceManager和NodeManagers节点、端口、内存分配等进行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hd-master</value>
</property>
 
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hd-master:9032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hd-master:9030</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hd-master:9031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hd-master:9033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hd-master:9099</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.resource.mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.command-opts</name>
    <value>-Xms128m -Xmx256m</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>8</value>
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>1</value>
</property>
 
 
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

进入hadoop-env.sh脚本文件所在目录/opt/linuxsir/hadoop/etc/Hadoop

设置环境变量

export JAVA_HOME=/opt/linuxsir/java/jdk

接着，设置/opt/linuxsir/hadoop/etc/hadoop目录下yarn-env.sh脚本文件的JAVA_HOME变量，内容如下

export JAVA_HOME=/opt/linuxsir/java/jdk

如果NodeManager因为内存不足，而启动不起来，那么yarn-env.sh文件需要做如下修改，即JAVA_HEAP_MAX改为3G

JAVA_HEAP_MAX=-Xmx3072m

指定主从节点列表

修改/opt/linuxsir/hadoop/etc/hadoop/masters文件和/opt/linuxsir/hadoop/etc/hadoop/slaves文件，目的是指定主节点和从节点列表。

/opt/linuxsir/hadoop/etc/hadoop/masters文件的内容如下，即主节点为hd-master

hd-master

/opt/linuxsir/hadoop/etc/hadoop/slaves文件的内容如下，即从节点为hd-slave1和hd-slave2

hd-slave1
hd-slave2

复制Hadoop到其它各个节点

从192.168.31.131虚拟机复制Hadoop到其它各个节点，包括192.168.31.132、192.168.31.133。在192.168.31.131上运行如下命令

chmod a+rwx -R /opt/linuxsir \设置/opt/linuxsir的存取权限
ssh root@192.168.31.132 chmod a+rwx -R /opt/linuxsir 
ssh root@192.168.31.133 chmod a+rwx -R /opt/linuxsir
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \复制/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
scp -r /opt/linuxsir/hadoop hd-slave1:/opt/linuxsir \复制/opt/linuxsir/hadoop
scp -r /opt/linuxsir/hadoop hd-slave2:/opt/linuxsir
 
source ~/.bashrc  \刷新环境变量
ssh root@192.168.31.132 source ~/.bashrc
ssh root@192.168.31.133 source ~/.bashrc

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分，通过该小程序，考生可以享受更便捷的服务。扫码加入CDA小程序，与圈内考生一同学习、交流、进步！

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动

解压缩Hadoop安装包及设置环境变量

创建数据存放目录

配置文件设置、环境变量、主从节点指定

配置文件设置

设置环境变量

指定主从节点列表

复制Hadoop到其它各个节点

推荐学习书籍

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

解压缩 Hadoop安装包及设置环境变量