CDA数据科学研究院 CDA考试中心 CDA人工智能学院 企业服务 关于CDA

cda

全国校区

您的位置:首页 > CDA发布 > 大数据分析如何在企业中落地?

大数据分析如何在企业中落地?

2017-07-24

一、大数据分析师和JAVA程序员有什么区别?

Hadoop架构基于java程序设计,因此大批的IT人士在大数据时代找到了自己的职业锚,而且最快地进入了这个行业,成为了最早的大数据分析师。但IT人士的宿命就在于他们太IT了,他们热衷于计算更快、处理更高效的程序设计,而忽略了大数据分析的本意是为企业带来商业价值,因此他们只能是大数据分析工程师,而真正的大数据分析师不必成为一个优秀的JAVA程序员,但应当熟悉Hadoop技术架构和算法设计,结合大数据工具,运用数据分析方法和机器学习算法,为业务做支撑,创造更大的商业价值。

二、大数据分析师区别于普通的数据分析师?

普通的数据分析师具有一定的数理统计基础,熟悉业务逻辑,能熟练地操作传统的数据分析软件,能使数据成为企业的智慧。他们通常遇到的都是一些结构化、体量小的小数据。而大数据分析师更专注数据获取的架构设计、数据分析模型的选择、指标的选取,他们具有数据分析师的理论素养和业务能力,面对大数据,他们有一整套分布式的数据获取、存储、处理和分析的方案,而且这个方案最终的目标是为数据分析服务,他们具有大数据分析的利器,如Hadoop、Spark等软件,他们做的更多的工作是如何将非结构化和结构化的大数据过滤成结构化的小数据,从而使更多的普通数据分析师有用武之地。

三、CDA大数据学习心得(徐学员)

Hadoop的核心框架是Hdfs和MapReduce。Hdfs是分布式文件系统,其主要作用是存储及读取数据。而MapReduce实际上是Hadoop工作的核心思想。任何想要在Hadoop集群上完成的算法都必须基于MapReduce的思想实现。我认为想要学习Hadoop,其核心在于充分理解MapReduce。而同时,MapReduce的理解也是理解大数据分析思想的关键,即如何将庞大的数据分解成可以进行操作的小数据集。

CDA大数据分析师课程大致可分为如下几个部分(阐述并不是按照时间顺序,而是按照个人对于这个课程的理解)。


第一部分是原理及背景的讲解:个人认为,这一部分其实是重点,因为涉及到了大数据分析的核心,也包括了Hadoop的运行原理。例如1.0版本与2.0版本的差异,其核心在于2.0版本增加了独立的资源管理器Yarn,这极大的提升了Hadoop处理海量数据时的效率。

第二部分是搭建平台:从最初的单机模式,至伪分布模式,到最终的集群模式。这部分内容中核心的部分是如何写好配置文件,在这里课程中也会涉及到核心参数的介绍,这对于理解Hadoop平台及今后自己如何配置Hadoop集群模式都是十分有用的。

第三部分是Mahout是建立在Hadoop平台上的软件,其中集成了许多很有用的算法。这些算法往往不是十分前沿的,但在处理海量数据时往往可以显现出强大的作用。课程中对于Mahout的讲解也是十分仔细的,因为它是目前最为常用且方便的分析海量数据的软件。

第四部分是对于自己想编写MapReduce的学员,这部分内容其实是十分关键的。因为我认为想真正成为一个大数据分析师,仅仅会用Mahout上现成的算法是远远不够的。修改已有的算法甚至是构造新算法都是一个想真正进入这一行业的从业人员所必需的。课程中也会涉及到怎样在源文件中修改MapReduce程序,从而实现自带的算法所不具有的功能。从这一点上也体现了课程的深度;第五部分是对Hadoop整体生态环境的介绍,介绍并在Hadoop平台上搭载了如Hive, HBase等等常用的应用。对于其优劣势也有较为详细的介绍,例如Hive可以利用HQL语句进行数据库操作,便于那些熟悉SQL语句的DB管理人员操作。而HBase是一种面向列的数据库,使得查询及插入数据更高效。相较于Hive,HBASE显然更适用与海量数据的管理,这些对于Hadoop整体生态环境的介绍体现了课程一定的广度。

第五部分是Spark运行速度如此之快,主要得益于以下两方面:一方面Spark中的运算大多是基于内存的。Spark提出了一种分布式的内存抽象,称为弹性分布式数据集(RDD,Resilient Distributed Datasets)。RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错、位置感知调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。另一方面,Spark从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG,然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。尽管非循环数据流是一种很强大的抽象方法,但仍然有些应用无法使用这种方式描述。Spark能够在多个并行操作之间重用工作数据集,适用于非循环数据流模型难以处理的应用。

大数据分析师最近开课:

一、课程信息
北京&远程:2017年8月05日~8月27日(周末8天)
授课安排:现场班8800元,远程班5800元
(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式
(2) 授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑) 
(3) 学习期限:现场与视频结合,长期学习加练习答疑。

二、报名流程
1. 在线填写报名信息
官网端:
(北京&远程)
微信端:

2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图

三、课程大纲
第一阶段:大数据前沿知识及Hadoop入门
1.大数据前沿知识介绍
2.课程介绍
3.Linux及Unbuntu安装和使用
4.Linux/Ubuntu文件系统操作
5.Hadoop的单机、伪分布、完全分布式模式的安装配置
【操作】:Hadoop集群安装

第二阶段:Hadoop部署进阶
1.Hadoop2.x体系结构
2.HDFS分布式文件系统,HDFS Shell操作
3.YARN的基本构成和工作原理
4.MapReduce并行计算框架
5.基本的MapReduce算法实现
6.Hadoop集群上部署和执行MR Job
【案例】:气象大数据分析

第三阶段:大数据导入与存储
1.mysql数据库基础知识
2.hive的基本语法
3.hive的架构及设计原理
4.hive安装部署与案例
5.sqoop安装及使用
【案例】:Web海量日志大数据分析

第四阶段:Hbase理论及实战
1.Hbase简介、安装及配置
2.hbase的数据存储
3.Hbase Shell
4.Hbase API
5.Hbase数据备份与恢复方法
【案例】:针对XX高校学生管理信息系统中的学生选课

第五阶段:Spark配置及使用场景
1.scala基本语法
2.spark介绍及发展历史
3.spark standalone模式部署
4.spark RDD 详解
5.Spark案例分析
【操作】:搭建 Spark1.4 Standalone分布式集群

第六阶段:Spark大数据分析原理
1.Spark作业调度流程与策略
2.集群模式运行、监控Spark应用程序的步骤与方法
3.Hive、Shark简介与对比分析
4.Spark MLlib体系结构简介
5.机器学习简介及经典算法案例详解
6.Spark SQL体系简介及语句流程
7.DataFrame模型的定义、功能
【案例】:Sogou搜索日志数据之用户行为进行分析

第七阶段:Tableau大数据分析
1.Tableau的维度与度量
2.使用Tableau快速创建交互式绘图
3.利用Tableau的GUI创建交互式仪表盘
4.使用Tableau连接hive数据源
【操作】:Tableau实践

第八阶段:Hadoop+Spark智慧高速大数据分析
1.复习Hive、Sqoop、Spark、Mysql的安装过程
2.Sqoop和Mysql数据库进行交互
3.Spark SQL语句操作大数据平台上的数据
4.Tableau高速大数据的漏斗分析
【案例】:智慧高速大数据分析


四、课程讲师
 
辛立伟

Java高级软件工程师、Java高级培训讲师、认证高级讲师、系统架构师、SUN中国社区会员、JAVA技术专家。精通JAVA、JAVA EE6体系结构;精 通Java企业级中间件技术设计、构建以及应用部署。


曹正凤
经管之家(原人大经济论坛)大数据培训中心负责人,统计学专业博士,北京大数据协会理事,首发集团智慧交通大数据中心筹备组负责人,研究方向为数据挖掘领域的前沿算法研究,包括随机森林算法、神经网络等内容,发表多篇论文。

联系我们
电话:010-68411404
手机:18511302788(王老师)QQ:28819897102881989710  
邮箱:wangzhenda@pinggu.org

—— Join Learn!

完 谢谢观看

分享
收藏

OK