登录
首页精彩阅读Hadoop 2.0:大数据的新突破在即-数据分析师
Hadoop 2.0:大数据的新突破在即-数据分析师
2014-11-17
收藏

Hadoop 2.0:大数据的新突破在即-CDA数据分析师


以往 Hadoop 似乎就是大数据的代名词。不过最近随着大数据应用的深入,大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。


不过这并不一定就是坏事。把 Hadoop 当作廉价有效的存储正好是 Hadoop 下一阶段演进的的完美起点。今年夏天就要亮相的 Hadoop 2.0 将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。

Hadoop大桶

自成为大数据工具以来,Hadoop 就是一个非常棒的数据存储系统,但是需要开发 Java 应用来访问数据的 MapReduce 学习起来却比较困难。

当然,还有别的办法可以从 Hadoop 中获取信息。Hbase数据是 Hadoop 的一部分,它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类 SQLHiveSQL 查询语言来创建查询并转化为 MapReduce 任务。不过 Hadoop 仍受限于单线程性。MapReduce 任务、Hive 查询、Hbase 操作,等等,这些都要轮流进行。


这就是许多大数据供应商倾向于仅将 Hadoop 当作数据容器的原因,为了提高效率,他们在此基础上再开发自己的工具来获取或分析其中的数据。尽管把 Hadoop 形容为一个大桶很形象,但是 Hadoop 用户当中已经有人把它看作是数据大湖甚至数据海洋了。不过光是规模大还是不行的,那些限制影响到了 Hadoop 的卖点。


Hadoop 的开发社区也意识到这个问题,随着 Hadoop 即将迭代到新的版本,上述限制即将在很大程度上被解除。

YARN解决方案


Hadoop 2.0 发布经理 Arun Murthy 看来,其最重要的变化是 MapReduce 框架升级为Apache YARN,这将扩展 Hadoop 中可以应用的软件种类和应用程度。Arun Murthy 本人就是 YARN 项目主管,他指出,Hadoop 1.0 和 2.0 的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据。


相对于当前 MapReduce 系统能处理的事情,把这些功能分开使得 Hadoop 集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理,也就是说不再有一次一项操作的限制了。

有了 YARN,开发者就能够直接在 Hadoop 内部来开发应用,而不是像许多第三方工具所做的那样,在外面把数据筛选出来。

Murthy 称,现在已经有供应商对在 YARN 框架内开发应用表现出兴趣。Murthy 估计,Hadoop 2.0 的强力 beta 版有可能会在今年 6 月或 7 月推出,正式版则可能在 8 月发布。

如果 YARN 的确能履行其承诺的话,开发者将可以在原生的 Hadoop 平台里方便地接触到许多的数据大湖大海,令搜寻有用信息的任务更加流畅和便捷。届时,大数据会变得更加有用、更加大众化。

数据分析咨询请扫描二维码

客服在线
立即咨询