热线电话：13121318867

首页大数据时代大数据分析师教程-1.1 Hadoop安装与HDFS、MapReduce实验：集群网络配置、JDK安装、无密码登录ssh

大数据分析师教程-1.1 Hadoop安装与HDFS、MapReduce实验：集群网络配置、JDK安装、无密码登录ssh

2024-10-12

大数据分析师教程

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：集群网络配置、JDK安装、无密码登录ssh

新建虚拟机集群逻辑说明
- 集群网络配置
介绍Hadoop的安装和配置
- 安装JDK
大数据分析师证书
- 考试范围

新建虚拟机 集群逻辑说明

在一台虚拟机上安装了CentOS以后，可以复制该虚拟机(复制虚拟机Image所在目录)，并且修改主机名、进行网络配置修改(IP地址)，构造3台虚拟机构成的集群

如果通过复制虚拟机Image的方式，建立另外两个虚拟机碰到问题，不好解决。所以最好是新建虚拟机2和虚拟机3，全新安装CentOS和进行相关配置，包括网络配置、Samba、SSHD、Yum等

集群网络配置

vm里面有3台主机，每个主机都是centos系统，上面都安装了Hadoop， hd-master节点的配置如下

ip：192.168.31.131
mask：255.255.255.0
gateway：192.168.31.2

hd-slave1节点的配置如下

ip：192.168.31.132
mask：255.255.255.0
gateway：192.168.31.2

hd-slave2节点的配置如下

ip：192.168.31.133
mask：255.255.255.0
gateway：192.168.31.2
DNS：``

windows的vmnet8配置如下

ip：192.168.31.1
mask：255.255.255.0
gateway：192.168.31.2
DNS：``

无线网卡节点的配置如下

ip：192.168.1.100
mask：255.255.255.0
gateway：192.168.1.1
DNS：``

介绍Hadoop的安装和配置

安装JDK

为了安装Hadoop，首先需要安装特定版本的JDK 查看安装的JDK信息

rpm -qa | grep java

卸载当前的jdk

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.31-2.b13.el7.x86_64
 
rpm -e --nodeps tzdata-java-2015a-1.el7.noarch
 
rpm -e --nodeps java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.34-1.13.6.1.el7_0.x86_64

下载JDK

将安装包jdk-8u144-linux-x64.tar.gz 传到/opt/linuxsir/java

解压和安装

mkdir -p /opt/linuxsir/java
cd /opt/linuxsir/java
 
tar -zxvf /opt/linuxsir/java/jdk-8u144-linux-x64.tar.gz
ls jdk1.8.0_144
mv jdk1.8.0_144 jdk
 
ls /opt/linuxsir/java/jdk

配置JDK

编辑/root/.bashrc文件，增加如下内容

ls /opt/linuxsir/java/jdk/jre/lib/rt.jar           \查看文件是否存在
ls /opt/linuxsir/java/jdk/lib/dt.jar
ls /opt/linuxsir/java/jdk/lib/tools.jar
 
echo "export JAVA_HOME=/opt/linuxsir/java/jdk" >> /root/.bashrc
echo "export JRE_HOME=$JAVA_HOME/jre" >> /root/.bashrc
echo "export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH" >> /root/.bashrc
      
echo "export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar" >> /root/.bashrc
 
cat /root/.bashrc

重新读取并生效.bashrc

cd                 \进入/root目录，即root用户的主目录
source .bashrc

同步三台虚拟机

scp -r /opt/linuxsir/java/jdk root@192.168.31.132:/opt/linuxsir/java \拷贝jdk
scp -r /opt/linuxsir/java/jdk root@192.168.31.133:/opt/linuxsir/java
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \拷贝/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 

ssh root@192.168.31.132 source ~/.bashrc \刷新环境变量
ssh root@192.168.31.133 source ~/.bashrc
 
ssh root@192.168.31.132 java -version \查看JDK版本
ssh root@192.168.31.133 java -version

配置各个虚拟机别名/etc/hostname

为192.168.31.131、192.168.31.132、192.168.31.133等3台虚拟机配置别名

三台机器的/etc/hostname的内容分别是hd-master、hd-slave1、hd-slave2

比如，在192.168.31.131上

cat /etc/hostname
 
rm -rf /etc/hostname
touch /etc/hostname
 
echo "hd-master" >> /etc/hostname
cat /etc/hostname| grep hd-master

另外2个主机运行类似的命令，注意主机名分别为hd-slave1、hd-slave2。

配置各个虚拟机的/etc/hosts文件

192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机的/etc/hosts内容一样

192.168.31.131 hd-master
192.168.31.132 hd-slave1
192.168.31.133 hd-slave2
 
127.0.0.1 localhost                \ 这行放在最后

在三台虚拟机上执行如下命令

rm -rf /etc/hosts
touch /etc/hosts
 
echo "192.168.31.131 hd-master" >>/etc/hosts
echo "192.168.31.132 hd-slave1" >>/etc/hosts
echo "192.168.31.133 hd-slave2" >>/etc/hosts
echo "127.0.0.1 localhost" >>/etc/hosts
echo "" >>/etc/hosts
 
cat /etc/hosts

无密码ssh登录

Linux 虚拟机之间的无密码ssh登录，使得我们可以在hd-master上，方便地启动Hadoop服务进程，这些服务进程包括主节点的进程和从节点的进程

当从主节点启动从节点的进程的时候，系统无需等待用户输入密码

在192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机上执行如下命令，配置sshd

编辑/etc/ssh/sshd_config，去掉以下两行注释，即把行首的#去掉，并且设置AuthorizedKeysFile

#RSAAuthentication yes    # 启用 RSA 认证
#PubkeyAuthentication yes    # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys    # 公钥文件路径(和下面生成的文件同名)

无密码ssh登录在192.168.31.131、192.168.31.132、192.168.31.133上执行如下命令，生成key

 
whoami
cd
pwd
 
ssh-keygen -t rsa                     \生成密钥文件
ls /root/.ssh/id_rsa                    \文件在/root/.ssh/id_rsa

在192.168.1.131上执行如下命令，从另外两台机器(132/133)，合并公钥到authorized_keys文件

cd ~/.ssh
ls authorized_keys
rm -rf authorized_keys
 
cat id_rsa.pub >> authorized_keys
ssh root@192.168.31.132 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.31.133 cat ~/.ssh/id_rsa.pub >> authorized_keys

从192.168.31.131，复制~/.ssh/authorized_keys和 ~/.ssh/known_hosts两个文件到另外两台机器192.168.31.132、192.3168.1.133

这时候，每台机器(CentOS)均有3台机器的公钥

cd ~/.ssh
scp authorized_keys root@192.168.31.132:~/.ssh
scp authorized_keys root@192.168.31.133:~/.ssh

scp known_hosts root@192.168.31.132:~/.ssh
scp known_hosts root@192.168.31.133:~/.ssh

在192.168.31.131上执行如下命令，修改192.168.31.131/132/133等三台机器上的~/.ssh/authorized_keys权限

cd ~/.ssh
ls authorized_keys
ssh root@192.168.31.132 ls ~/.ssh/authorized_keys
ssh root@192.168.31.133 ls ~/.ssh/authorized_keys
 
cd ~/.ssh
chmod 700 authorized_keys
ssh root@192.168.31.132 chmod 700 ~/.ssh/authorized_keys
ssh root@192.168.31.133 chmod 700 ~/.ssh/authorized_keys

在192.168.31.131、192.168.31.132、192.3168.1.133上执行如下命令，重启sshd

service sshd restart
    \或者用/etc/init.d/sshd restart

测试无密码登录

\在192.168.31.131上，测试无密码登录132/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit
 
\在192.168.31.132上，测试无密码登录131/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.133
exit
 
\在192.168.31.133上，测试无密码登录131/132
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit

大数据分析师证书

针对不同知识，掌握程度的要求分为【领会】、【熟知】、【应用】三个级别，考生应按照不同知识要求进行学习。

1．领会：考生能够领会了解规定的知识点，并能够了解规定知识点的内涵与外延，了解其内容要点和它们之间的区别与联系，并能做出正确的阐述、解释和说明。
2．熟知：考生须掌握知识的要点，并能够正确理解和记忆相关理论方法，能够根据不同要求，做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3．应用：考生须学会将知识点落地实践，并能够结合相关工具进行商业应用，能够根据具体要求，给出问题的具体实施流程和策略。

考试范围

PART 1 大数据基础理论占比（8% ） 

a. 大数据分析基础（1%）
b. Python 基础（5%）
c. Linux & Ubuntu 操作系统基础（2%）

PART 2 Hadoop 理论占比（12% ）

a. Hadoop 安装配置及运行机制解析（2%）
b. HDFS 分布式文件系统（2%）
c. MapReduce 理论及实战（2%）
d. Hadoop 生态其他常用组件（6%）

PART 3 大数据分析之数据库理论及工具占比（16% ）

a. 数据库导论（2%）
b. MySQL 理论及实战（3%）
c. HBase 安装及使用（3%）
d. Hive 安装及使用（5%）
e. Sqoop 安装及使用（3%）

PART 4 大数据分析之数据挖掘理论基础占比（10% ）

a. 数据挖掘的基本思想（2%）
b. 数据挖掘基本方法介绍（2%）
c. 有监督学习算法（4%）
d. 无监督学习算法（2%）

PART 5 大数据分析之 Spark 工具及实战占比（35% ）

a. Spark 基础理论（2%）
b. Spark RDD 基本概念及常用操作（3%）
c. Spark 流式计算框架 Spark Streaming、Structured Streaming（5%）
d. Spark 交互式数据查询框架 Spark SQL（5%）
e． Spark 机器学习算法库 Spark MLlib 基本使用方法（15%）
f． Spark 图计算框架 GraphX（5%）

PART 6 大数据分析之数据可视化方法占比（4% ）

a. 数据可视化入门基础（1%）
b. Python 数据可视化入门（2%）
c. Python 高级数据可视化方法（1%）

PART 7 大数据分析实战占比（15% ）

a. 利用 HDFS Shell 操作 HDFS 文件系统（1%）
b. 利用 Hive SQL 进行数据清洗（2%）
c. 利用 Sqoop 进行数据传输（1%）
d. 利用 Spark SQL 进行数据读取（2%）
e. 利用 Spark MLlib 进行机器学习建模（8%）
f. 利用 Python 进行建模结果数据可视化（1%）

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分，通过该小程序，考生可以享受更便捷的服务。扫码加入CDA小程序，与圈内考生一同学习、交流、进步！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

虚拟机数据分析大数据大数据分析 Hadoop 集群数据可视化 HDFS

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析师从业者，有必要认证CDA吗？

下一篇大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据分析师教程-1.1 Hadoop安装与HDFS、MapReduce实验：集群网络配置、JDK安装、无密码登录ssh

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：集群网络配置、JDK安装、无密码登录ssh

新建虚拟机集群逻辑说明

集群网络配置

介绍Hadoop的安装和配置

安装JDK

下载JDK

配置JDK

同步三台虚拟机

配置各个虚拟机别名/etc/hostname

配置各个虚拟机的/etc/hosts文件

无密码ssh登录

大数据分析师证书

考试范围

PART 1 大数据基础理论 占比（8% ） 

PART 2 Hadoop 理论 占比（12% ）

PART 3 大数据分析之数据库理论及工具 占比（16% ）

PART 4 大数据分析之数据挖掘理论基础 占比（10% ）

PART 5 大数据分析之 Spark 工具及实战 占比（35% ）

PART 6 大数据分析之数据可视化方法 占比（4% ）

PART 7 大数据分析实战 占比（15% ）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载