【每周一本书第2波】Spark大数据分析技术与实战 -CDA数据分析师官网

热线电话：13121318867

【每周一本书第2波】Spark大数据分析技术与实战

2017-08-31

【每周一本书第2波】Spark大数据分析技术与实战

在大数据背景下，各领域对数据相关服务的需求不断提升，迫切需要一种高效通用的大数据处理引擎。相对于第一代大数据生态系统Hadoop中的MapReduce，Spark是一种基于内存的、分布式的大数据处理引擎，其计算速度更快，更加适合处理具有较多迭代次数的问题；Spark中还提供了丰富的API，使其具有极强的易用性；与此同时，Spark实现了“一栈式”的大数据解决方案，即在Spark内核基础上提出了Spark GraphX、Spark Streaming、Spark MLlib、Spark SQL等组件，使其不仅能够对海量数据进行批处理，同时还具备流式计算、海量数据交互式查询等功能，可以满足包括教育、电信、医疗、金融、电商、政府、智慧城市和安全等诸多领域中的大数据应用需求。

Spark作为下一代大数据处理引擎，经过短短几年的飞跃式发展，正在以燎原之势席卷业界，现已成为大数据产业中的一股中坚力量。本书主要针对大数据技术初学者，着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架，并提供了相应的示例与解析，是初学者快速入门和学习Spark的不二之选。

【每周一本书】又是一周，CDA数据分析师携手工业出版社将于每周三展开赠书活动，每周给各位读者提供3-5本赠书，希望带动各位读者能借此机会每周充一次电。（注：书籍将于10天内发放到中奖者手中。参与方式见下文）

作者简介

董轶群，吉林大学计算机科学与技术学院博士毕业。曾在吉林大学“符号计算与知识工程”教育部重点实验室从事空间关系建模研究，参与了多个国家自然科学基金重点项目与面上项目的申报与研究工作，并在项目中主要负责空间方向关系建模、空间拓扑关系建模的研究工作。目前作为经管之家（原人大经济论坛）大数据讲师，主讲Spark、Hbase、Scala等大数据核心课程，并从事大数据相关的理论与应用研究工作。重点关注海量数据背景下空间关系建模与智能交通的结合研究，并在国内期刊和国际会议上发表了一系列相关理论的研究成果。

曹正凤，统计学博士，经管之家（原人大经济论坛）大数据中心总工程师，经管之家CDA大数据分析师培训负责人，北京博宇通达科技有限公司技术总监。致力于大数据分析前沿领域研究，主持首发集团智慧交通大数据中心建设项目，基于大数据平台的互联网金融风险监控系统项目，参与国家社科基金项目《基于大数据整合的空气质量测度方法研究》。

赵仁乾，北京邮电大学管理科学与工程硕士，现就职于北京电信规划设计院任高级经济师，从事移动、联通集团及各省分公司市场、业务、财务规划，经济评价及运营咨询。重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、潜在价值客户挖掘等。

王安，布本智能首席数据官，北京大学光华管理学院MBA，北京大学商务智能中心专家组成员。专注数据化决策，互联网金融风险管理与精准营销。在数据决策领域拥有十多年的实践经验，曾服务多家大中型银行、保险公司及互联网金融公司。同时也积极参与数据决策教育领域，为北京大学、人民大学、北京航空航天大学、北京理工大学等院校机构提供相关课程和数据教育辅导。

内容提要

Spark作为下一代大数据处理引擎，经过短短几年的飞跃式发展，正在以燎原之势席卷业界，现已成为大数据产业中的一股中坚力量。

本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架，并提供了相应的示例与解析。

全书共分为8章，其中前4章介绍Spark内核，主要包括Spark简介、集群部署、工作原理、核心概念与操作等；后4章分别介绍Spark内核的核心组件，每章系统地介绍Spark的一个组件，并附以相应的案例分析。