京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据分析师教程
在一台虚拟机上安装了CentOS以后,可以复制该虚拟机(复制虚拟机Image所在目录),并且修改主机名、进行网络配置修改(IP地址),构造3台虚拟机构成的集群
如果通过复制虚拟机Image的方式,建立另外两个虚拟机碰到问题,不好解决。所以最好是新建虚拟机2和虚拟机3,全新安装CentOS和进行相关配置,包括网络配置、Samba、SSHD、Yum等
vm里面有3台主机,每个主机都是centos系统,上面都安装了Hadoop,
hd-master节点的配置如下
192.168.31.131255.255.255.0192.168.31.2hd-slave1节点的配置如下
192.168.31.132255.255.255.0192.168.31.2hd-slave2节点的配置如下
192.168.31.133255.255.255.0192.168.31.2windows的vmnet8配置如下
192.168.31.1255.255.255.0192.168.31.2无线网卡节点的配置如下
192.168.1.100255.255.255.0192.168.1.1为了安装Hadoop,首先需要安装特定版本的JDK 查看安装的JDK信息
rpm -qa | grep java
卸载当前的jdk
rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.31-2.b13.el7.x86_64
rpm -e --nodeps tzdata-java-2015a-1.el7.noarch
rpm -e --nodeps java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.34-1.13.6.1.el7_0.x86_64
将安装包jdk-8u144-linux-x64.tar.gz 传到/opt/linuxsir/java
解压和安装
mkdir -p /opt/linuxsir/java
cd /opt/linuxsir/java
tar -zxvf /opt/linuxsir/java/jdk-8u144-linux-x64.tar.gz
ls jdk1.8.0_144
mv jdk1.8.0_144 jdk
ls /opt/linuxsir/java/jdk
编辑/root/.bashrc文件,增加如下内容
ls /opt/linuxsir/java/jdk/jre/lib/rt.jar \查看文件是否存在
ls /opt/linuxsir/java/jdk/lib/dt.jar
ls /opt/linuxsir/java/jdk/lib/tools.jar
echo "export JAVA_HOME=/opt/linuxsir/java/jdk" >> /root/.bashrc
echo "export JRE_HOME=$JAVA_HOME/jre" >> /root/.bashrc
echo "export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH" >> /root/.bashrc
echo "export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar" >> /root/.bashrc
cat /root/.bashrc
重新读取并生效.bashrc
cd \进入/root目录,即root用户的主目录
source .bashrc
scp -r /opt/linuxsir/java/jdk root@192.168.31.132:/opt/linuxsir/java \拷贝jdk
scp -r /opt/linuxsir/java/jdk root@192.168.31.133:/opt/linuxsir/java
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \拷贝/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
ssh root@192.168.31.132 source ~/.bashrc \刷新环境变量
ssh root@192.168.31.133 source ~/.bashrc
ssh root@192.168.31.132 java -version \查看JDK版本
ssh root@192.168.31.133 java -version
为192.168.31.131、192.168.31.132、192.168.31.133等3台虚拟机配置别名
三台机器的/etc/hostname的内容分别是hd-master、hd-slave1、hd-slave2
比如,在192.168.31.131上
cat /etc/hostname
rm -rf /etc/hostname
touch /etc/hostname
echo "hd-master" >> /etc/hostname
cat /etc/hostname| grep hd-master
另外2个主机运行类似的命令,注意主机名分别为hd-slave1、hd-slave2。
192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机的/etc/hosts内容一样
192.168.31.131 hd-master
192.168.31.132 hd-slave1
192.168.31.133 hd-slave2
127.0.0.1 localhost \ 这行放在最后
在三台虚拟机上执行如下命令
rm -rf /etc/hosts
touch /etc/hosts
echo "192.168.31.131 hd-master" >>/etc/hosts
echo "192.168.31.132 hd-slave1" >>/etc/hosts
echo "192.168.31.133 hd-slave2" >>/etc/hosts
echo "127.0.0.1 localhost" >>/etc/hosts
echo "" >>/etc/hosts
cat /etc/hosts
Linux虚拟机之间的无密码ssh登录,使得我们可以在hd-master上,方便地启动Hadoop服务进程,这些服务进程包括主节点的进程和从节点的进程
当从主节点启动从节点的进程的时候,系统无需等待用户输入密码
在192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机上执行如下命令,配置sshd
编辑/etc/ssh/sshd_config,去掉以下两行注释,即把行首的#去掉,并且设置AuthorizedKeysFile
#RSAAuthentication yes # 启用 RSA 认证
#PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径(和下面生成的文件同名)
无密码ssh登录 在192.168.31.131、192.168.31.132、192.168.31.133上执行如下命令,生成key
whoami
cd
pwd
ssh-keygen -t rsa \生成密钥文件
ls /root/.ssh/id_rsa \文件在/root/.ssh/id_rsa
在192.168.1.131上执行如下命令,从另外两台机器(132/133),合并公钥到authorized_keys文件
cd ~/.ssh
ls authorized_keys
rm -rf authorized_keys
cat id_rsa.pub >> authorized_keys
ssh root@192.168.31.132 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.31.133 cat ~/.ssh/id_rsa.pub >> authorized_keys
从192.168.31.131,复制~/.ssh/authorized_keys和 ~/.ssh/known_hosts两个文件到另外两台机器192.168.31.132、192.3168.1.133
这时候,每台机器(CentOS)均有3台机器的公钥
cd ~/.ssh
scp authorized_keys root@192.168.31.132:~/.ssh
scp authorized_keys root@192.168.31.133:~/.ssh
scp known_hosts root@192.168.31.132:~/.ssh
scp known_hosts root@192.168.31.133:~/.ssh
在192.168.31.131上执行如下命令,修改192.168.31.131/132/133等三台机器上的~/.ssh/authorized_keys权限
cd ~/.ssh
ls authorized_keys
ssh root@192.168.31.132 ls ~/.ssh/authorized_keys
ssh root@192.168.31.133 ls ~/.ssh/authorized_keys
cd ~/.ssh
chmod 700 authorized_keys
ssh root@192.168.31.132 chmod 700 ~/.ssh/authorized_keys
ssh root@192.168.31.133 chmod 700 ~/.ssh/authorized_keys
在192.168.31.131、192.168.31.132、192.3168.1.133上执行如下命令,重启sshd
service sshd restart
\或者用/etc/init.d/sshd restart
测试无密码登录
\在192.168.31.131上,测试无密码登录132/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit
\在192.168.31.132上,测试无密码登录131/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.133
exit
\在192.168.31.133上,测试无密码登录131/132
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit
针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了 解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。
2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不 同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根 据具体要求,给出问题的具体实施流程和策略。
a. Spark 基础理论(2%)
b. Spark RDD 基本概念及常用操作(3%)
c. Spark 流式计算框架 Spark Streaming、Structured Streaming(5%)
d. Spark 交互式数据查询框架 Spark SQL(5%)
e. Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)
f. Spark 图计算框架 GraphX(5%)
c. 利用 Sqoop 进行数据传输(1%)
d. 利用 Spark SQL 进行数据读取(2%)
e. 利用 Spark MLlib 进行机器学习建模(8%)
f. 利用 Python 进行建模结果数据可视化(1%)
这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。
它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。
扫码加入CDA小程序,与圈内考生一同学习、交流、进步!

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04