cda

您的位置:首页 > 课程列表 > 大数据分析师周末集训班

大数据分析师周末集训班

大数据分析师周末集训班

难度:


周期: 12周

9900

提前一个月报名优惠500元

立即报名 体验课程

大数据分析师周末集训班

 姓名:

 电话:

 邮箱:

   备注:

邀请码:

提交信息
  • WHAT 课程简介

    CDA大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、hive和Hbase等理论知识和基于Spark的大数据分析和机器学习知识,详细演示Hadoop三种模式的安装配置,以案例的形式,重点讲解基于PySpark技术的回归、分类和聚类分析等大数据分析案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习Scala编程,掌握Spark,手把手带练,3个月成为行业急需的大数据开发人才。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。
  • WHY 学习目标

    掌握使用Hadoop架构应用于大数据分析
    掌握使用Hadoop核心组件Hbase和Hive数据仓库操作方法
    掌握使用Spark-SQL进行数据的规约和处理
    掌握使用Pyspark进行大数据分析和机器学习
    掌握企业真实的大数据分析场景案例
  • WHO 学习对象和基础

    大数据业务工作迟迟得不到进展人士
    针对数据分析、数据挖掘岗位转型、提拔涨薪、技能优化等的职场白领
    未来准备从事大数据相关工作的计算机专业大学生人群
    需要有统计学基础和编程基础最佳(Java或Python)



课程案例,项目特训

点击图片任何区域可放大

Ubuntu使用Mysql创建表

案例介绍 根据给定文档在MySQL创建3个表并执行查询 技能涉及 1. 查看配置 show variable; 2.查看目前处理的列表; show processlist; 3.看看有哪些存储过程 show procedure status; 4.查看一条命令的执行方案 explain select * fromt t_your_tabe;
点击图片任何区域可放大

高速公路收费站各站点每日收费额情况图 ...

案例介绍 将所有数据导入到 mysql 中,同时 hive 中,并编写 spark 程序, 统计出每天的交易额,并输出到 mysql 中,hive 中的数据, 编写 spark 程序,使用漏斗模型统计分析出某日数据增加的原因。 技能涉及 每天的数据为单位,将每天收费的环比增长率作为因变量,每个入口环比增长率为自变量,根据六个月的数据,建立多元线性回归模型,算出每个入口的贡献率(使用 hadoop+mysql+hive+spark+sqoop+tableau 完成)
点击图片任何区域可放大

查看集群状态

案例介绍 集群运行中查看集群状态及集群信息 技能涉及 1 检查集群、节点、索引的健康情况 2 管理集群、节点,索引数据、元数据 3 执行CRUD,创建、读取、更新、删除 以及 查询 4 执行高级的查询操作,比如分页、排序、脚本、聚合等
点击图片任何区域可放大

3月份日收费额环比变化情况

案例介绍 高速公路ETC交易数据,数据采集时间段为201X年一个季度的数据 技能涉及 1.所有的数据都导入到大数据平台上,使用hive进行数据的分布式存储 2.使用spark程序统计出每天的交易金额 3.分析每天交易金额的变化 4.综合考虑入口、出口、车型等综合因素,编写spark程序,使用漏斗模型统计分析出某日数据增加的原因 5.以每天的数据为单位,将每天收费的环比增长率作为因变量,每个入口环比增长率为自变量,根据三个月的数据,建立多元线性回归模型,算出每个入口的贡献率,为高速公路管理方出入口开放提供决策依据。

01大数据前沿应用与Hadoop环境搭建

01-01大数据行业前沿应用与知识介绍
01-02大数据分析师课程安排
01-03Linux入门基础
01-04Hadoop入门介绍
01-05Hadoop单机环境搭建
01-06Hadoop伪分布式集群搭建
01-07Hadoop完全分布式集群搭建

02Hadoop核心组建使用方法(线上学习)

01-01分布式文件系统HDFS架构原理及常用指令
01-02HDFS编程入门
01-03Hbase编程入门
01-04分布式数据仓库Hive架构原理及HQL语法介绍
01-05分布式计算引擎MapReduce架构原理及基本使用方法
01-06资源调度器YARN基本原理
01-07ETL工具Sqoop使用方法

03分布式计算引擎Spark入门

01-01Scala语法知识介绍
01-02 Spark架构特点及基本原理
01-03Spark入门及安装部署方法
01-04Spark Core介绍
01-05Spark SQL介绍与数据读取、保存方法
01-06Spark GraphX入门及基本使用方法
01-07Spark GraphX图计算算法案例

04Spark核心组件的使用方法

01-01日志采集系统Flume和分布式消息队列Kafka入门
01-02流式计算框架Spark Streaming基本原理及使用方法
01-03流式计算框架Structured Streaming基本原理及使用方法
01-04分布式算法库Spark MlLib入门介绍
01-05Spark ML与Spark MLLib
01-06机器学习工作流

05Python入门与数据清洗(线上学习)

01-01Python编程基础:基本数据结构
01-02Python编程基础:常用控制语句
01-03NumPy基本数据结构和常用操作
01-04Pandas基本数据结构和常用操作
01-05Python数据清洗综合案例

06大数据分析之数据统计学基础(线上学习)

01-01概率论与数理统计基础知识
01-02数据探索与描述性统计分析
01-03常用统计量的解释与使用
01-04参数估计方法:点估计和区间估计
01-05假设检验基本原理和应用
01-06方差分析基本原理和应用

07Pyspark基础知识

01-01Spark数据结构及编程语言接口
01-02PySpark开发环境搭建
01-03PySpark编程入门:Spark基本数据结构
01-04PySpark编程入门:PySpark常用语句
01-05Spark与分布式数据库和分布式数据仓库的集成方法
01-06采用PySpark读取分布式数据库中数据
01-07 PySpark数据清洗案例

08PySpark机器学习-Part1

01-01机器学习入门
01-02PySpark基于Spark ML的特征抽取、转化和选择方法
01-03最近邻分类器KNN基本原理及ML实现
01-04聚类分析基本原理
01-05K-Means快速聚类基本原理
01-06K-Means快速聚类的Spark ML实现方法
01-07高斯混合模型(GMM)聚类算法的Spark实现

09PySpark机器学习-Part2

01-01Spark MLLib统计分析
01-02线性回归基本原理
01-03线性回归的Spark ML实现方法
01-04对数几率分布于Sigmoild函数
01-05逻辑回归基本原理
01-06逻辑回归的Spark ML实现方法

10PySpark机器学习-Part3

01-01决策树模型的基本原理
01-02决策树的Spark ML实现方法
01-03随机森林基本原理
01-04随机森林的Spark ML实现方法
01-05关联规则算法入门:Apriori算法基本原理
01-06利用FP-Growth挖掘关联规则
01-07FP-Growth算法的Spark ML实现方法
01-08带时序关系的关联规则挖掘算法Pre-FixSpan基本原理
01-09Pre-FixSpan的Spark ML实现方法

11PySpark机器学习-Part4与综合案例

01-01协同过滤在Spark ML中的实现方法
01-02Spark机器学习流构建方法
01-03Spark机器学习模型超参数调优方法
01-04Spark机器学习模型自动选择方法
01-05PySpark综合案例

11期末项目答辩

01-01期末答辩

来自业界的数据领袖团队

  • 曹正凤

    经管之家(原人大经济论坛)大数据培训中心负责人,统计学专业博士,北京大数据协会理事,首发集团智慧交通大数据中心筹备组负责人,研究方向为数据挖掘领域的前沿算法研究,包括随机森林算法、神经网络等内容,发表多篇论文。

  • 辛立伟

    Java高级软件工程师、Java高级培训讲师、认证高级讲师、系统架构师、SUN中国社区会员、JAVA技术专家。精通JAVA、JAVA EE6体系结构;精 通Java企业级中间件技术设计、构建以及应用部署。

  • 吴昊天

    CDA数据分析研究院技术负责人兼高级讲师,CDA LEVEL II大数据分析师等级考试命题组组长,曾就职于电子科技大学大数据中心,从事医疗大数据分析相关工作,拥有丰富的海量数据分析经验、算法研发经验、省级数据平台搭建经验,拥有算法专利若干,主要研究方向为机器学习和深度学习。

  • 赵仁乾

    北京邮电大学管理科学与工程硕士,现就职于北京电信规划设计院,从事移动、联通集团及各省分公司市场\业务\财务规划、经济评价及运营咨询。重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析等。

向优秀学姐学长们学习

  • 王学员

    知名金融公司 18K

    想入门大数据领域,学习了CDA大数据课程。包括Hadoop原理,组件应用,Spark原理,组件应用。 并行粒度问题。老师结合Hadoop+Hive+Spark等大数据工具数据实战,尤其是交通大数据的案例,受益匪浅。适合基础薄弱的同学,上课环境很好,课 ...
  • 安学员

    互联网公司 15K

    主要学习统计学理论基础和数据挖掘算法,结合Hadoop+Hive+Spark等大数据工具实现业务场景。老师讲课思路清晰,幽默风趣。虽然要学的知识非常多,但老师深入浅出讲解,所以听起来不是非常费劲 ...
权威 CDA数据分析师认证证书由经管之家颁发,现已获得大数据大学、CDMS、 猎聘网等企业的认可,您获得证书后可一键添加至简历中。
专业 CDA证书分等级和方向,不同的证书代表了不同的专业层级和领域, 获得证书是对自身能力的一个有力证明。全国统考、专家命题、公平 严格,更具含金量。
权益 持证人享有系列特殊权益。证书皆绑定考生真实身份,可在CDA官网 查询,确保唯一性与防伪性。证书三年审核一次,保证持证人的实力 与权益。

认证介绍:
CDA数据分析师认证”是一套专业化,科学化,国际化,系统化的人才考核标准,分为CDA LEVELⅠ ,LEVEL Ⅱ,LEVEL Ⅲ,涉及金融、电商、医疗、互联网、电信等行业大数据及数据分析从业者所需要具备的技能,符合当今全球大数据及数据分析技术潮流,为各界企业、机构提供数据分析人才参照标准。经管之家为中国区CDA数据分析师认证考试唯一主办机构,于每年6月与12月底在全国范围举办线下数据分析师考试,通过考试者可获得CDA数据分析师认证证书。
CDA持证人福利
1.可吸纳为CDA Institute、中国数据分析师(CDA)俱乐部会员,活动中具有优先报名参与权。
2.可优先获得CDA内部就业及职业发展推荐。
3.免费参与CDA举办的中国数据分析师行业峰会、大数据峰会、研讨会等各项活动,Level Ⅱ与Level III持证人享受特权位置。
4.可申请加入CDA数据分析项目组,参与项目合作(提供项目给持证人演练)。
5.CDA Level Ⅰ持证人免费享受Peixun.net会员服务6个月(价值588 RMB),Level Ⅱ与Level III持证人免费享受peixun.net会员服务1年 (价值998 RMB);
6.其他特权皆以各类活动公告为主。
进入考试报名系统
  • Q:大数据分析师和JAVA程序员有什么区别?

    A:Hadoop架构基于java程序设计,因此大批的IT人士在大数据时代找到了自己的职业锚,而且最快的进入了这个行业,成为了最先的大数据分析师。但IT人士的宿命就在于他们太IT了,他们热衷于计算更快、处理更高效的程序设计,而忽略了大数据分析的本意,为企业带来商业价值,因此他们只能是大数据分析工程师,而正真的大数据分析师应当了解和熟悉hadoop技术架构和算法设计,但不必成为一个优秀的JAVA程序员。
  • Q:大数据分析师区别于普通的数据分析师?

    A:普通的数据分析师具有一定的数理统计基础,熟悉业务逻辑,能熟练地操作传统的数据分析软件,能使数据成为企业的智慧。他们通常遇到的都是一些结构化、体量小的小数据。而大数据分析师更专注数据获取的架构设计、数据分析模型的选择、指标的选取,他们具有数据分析师的理论素养和业务能力,面对大数据,他们有一整套分布式的数据获取、整理、处理和分析的方案,而且这个方案最终的目标是为数据分析服务,他们具有大数据分析的利器,如Hadoop、Spark等软件。
  • Q:参加课可以考取的考取的证书有哪些?

    A:参加《CDA大数据分析师》证书每年6月和12月考试,通过者即可获得;培训后申请工信部《数据分析师》证书。
  • Q: 学员课下如何与老师进行互动?

    A:CDA大数据分析师课程每期都会建立QQ群和微信群,工作日有老师和助教负责答疑;同时学员可以在讨论区以帖子的形式向老师提问,老师会在工作日的48小时内回复。

OK