Spark会成为大数据分析的新里程碑_数据分析师-CDA数据分析师官网

热线电话：13121318867

Spark会成为大数据分析的新里程碑_数据分析师

2015-04-22

Spark会成为大数据分析的新里程碑_数据分析师

在年初于纽约举行的Spark Summit East大会上，Databrick成为了焦点所在，通过新发布的数据处理云服务，该公司力图将Spark与MapReduce及Hadoop系统划清界限。

经过本次大会，Spark在业界的逐渐普及已是不争的事实。Apache Spark是一个开源的大数据处理引擎，能够被用于解决各界面临的高难度问题：如何快速识别针对比特币网络的拒绝服务攻击？如何将车辆与物联网或互联网相连接？如何识别出那些极为隐秘的洗钱行为？

对于Spark的兴趣不仅仅局限于具有纯天然数字化基因的企业，或者提供Spark相关技术的厂商。诺华制药（Novartis）、有线电视网Comcast和高盛等公司也在会上为Spark唱起了赞歌。但是，本次Spark Summit与其说是一次会议，不如说是一次Databrick的专场演出。Databrick发布了商业版的Spark系统，并且撇清与Hadoop生态的任何关系 -- 既非敌人也不是朋友。Databrick这次发布的是基于云的Spark服务。

顺势而生

Databrick由加州伯克利大学AMP实验室团队所创建，即Apache Spark的开发者。自从诞生伊始，Spark就被拿来与MapReduce进行比较，MapReduce是Hadoop最初的数据处理引擎。MapReduce因其对大数据集的分布式处理能力而广受关注，但是也一直在效率方面饱受责难。MapReduce以批处理方式进行计算，无法很好地应对流处理模式（比如物联网项目）。而且，MapReduce没有内存计算的选项，每次计算后都要将结果写入外部存储，这使得迭代式的任务相当耗时。

MapReduce的种种缺陷，使得诸如Spark之类的新一代处理引擎应运而生。“MapReduce的设计始于15年以前，”Databrick的联合创始人Patrick Wendell表示：“而Spark则是基于当代最新的硬件，完全重新设计而成的。”

同时，Databrick实现了Spark与Hadoop环境的兼容，并坚信Spark将在大数据生态中扮演更重要的角色。“我认为Spark将凌驾于Hadoop之上，在更多的场景中发挥作用。目前，在很大程度上这一点已经成为现实。”Wendell说。

去年春季，Databrick与DataStax建立了合作伙伴关系，后者专注于提供NoSQL数据库Cassandra的商业版。去年秋天，Databrick发布了Databrick云，基于Amazon S3存储提供Spark环境，实现所谓的大数据即服务。由于在可用性方面受限，有传闻Databrick云最终将驻留在Google Compute Engine和微软Azure云上。与MapReduce不同，Databrick尽量让使用Spark的技术门槛降低，能够面向更为广泛的受众。比如，Databrick为用户提供了各种高级和低级的API接口 – 所谓高级接口，主要针对那些对数据科学或分布式系统不熟悉的用户，使之同样能从复杂的机器学习算法中受益。

应者云集

如果说本次Spark Summit East大会带来的影响，应该就是CIO们，或者更确切地说是那些一直追踪大数据技术发展的数据分析师们会认为Spark将是继Hadoop之后的新里程碑。Databrick宣称Spark大数据处理引擎将改变企业分析的形态（过去的情况是，诸如Cloudera一类的Hadoop提供商一直扮演着支撑的角色）。Databrick同样让与会者相信，即使那些“普通”（normal，先前举行的Hadoop World大会上，Cloudera使用了这个词）的公司，也能够从Spark中受益，比如诺华制药和Comcast，以及不那么有名的Automatic和Shopify公司。

对于Spark的赞美同样来自于其他与会者。Tresata的创始人和首席执行官Abhishek Mehta表示：“我认为Spark应对了当前大数据研究中的所有热点问题。”高盛的Matt Glickman表示，Spark代表了未来发展的方向，将成为大数据分析的通用工具。Alteryx（致力于为普通用户提供分析语言R和大数据分析能力）的首席运营官George Mattew则描述了在集成R和MapReduce时的遭遇。
“有人说，旧约中并没有对地狱的具体描述。”Mathew回忆到：“但是，当我们试图将R和MapReduce集成时，却有了切身体会。在引入其他通用的计算能力时，MapReduce的步伐是如此艰难。”

这听起来非常刺耳，曾经的大数据明星，如今被Spark的光芒所掩盖 – 至少在某些大数据信徒看来，事实就是如此。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据 Hadoop 数据分析 SQL 机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Spark会成为大数据分析的新里程碑_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

Spark会成为大数据分析的新里程碑_数据分析师​

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

Spark会成为大数据分析的新里程碑_数据分析师