Apache Hadoop为BI分析带来机遇和挑战 -CDA数据分析师官网

热线电话：13121318867

首页精彩阅读Apache Hadoop为BI分析带来机遇和挑战

Apache Hadoop为BI分析带来机遇和挑战

2014-11-18

Apache Hadoop为BI分析带来机遇和挑战

Apache Hadoop技术经常与大数据概念联系在一起，它们常常同时出现在各种行业会议和媒体报道中。而IT人员、咨询顾问和行业分析师已经逐渐达成共识，Hadoop只是诸多大数据技术中的一种。

　　Hadoop是一个开源技术，它允许公司存储和分析分布式计算环境的海量数据。它的出现肯定对提升大数据的影响力有重要作用。但是行业观察者指出，Hadoop现在仍存在一些问题。

　　Forrester机构的企业架构分析师Brian Hopkins说：人们开始认识到，大数据和Hadoop并不是同义词。这是因为他们下载Hadoop之后，并不意味着就能够玩儿转大数据，它仅仅只是一个工具。

　　大数据与Hadoop：从幕后走到台前

　　Hadoop最初由互联网巨头谷歌和雅虎共同开发，现在已经转移到Apache软件基金会。在赢得了大数据必备工具的称号并开始出现一些成功案例之后，这项技术及其醒目的logo从2011年起名声大振。

　　以eBay为例，这家知名电商平台在几次大会上都介绍了它的三层数据分析平台。结构化数据位于第一层：一个用于保存内部业务项目(如支撑商业智能仪表板和报表)的企业数据仓库。第二层由Teradata数据管理平台组成，用于存储大容量半结构化信息。而非结构化数据(如文本信息)则保存在第三层，它是一个用于深度研究、分析和实验的Hadoop集群。

　　Hopkins在最新播客大数据的超大规模价值上指出：现在出现了一个有趣的用例，其中Hadoop被看作是一种快速分布式环境，它成为分段存储大量信息的场所。因为你还无法确定如何处理它，所以直接将原始文件保存在Hadoop中，然后由Hadoop处理这些文件。

　　Hadoop是一个分布式文件系统，它的数据(结构化、半结构化和非结构化)存储功能优于关系型数据库。因此，它非常适合那些需要收集大量数据(如无统一格式的社交媒体网站内容、计算机生成的传感器日志和GPS位置信息)的公司使用，而不会影响他们的传统关系数据库。

　　Wayne Eckerson是TechTarget业务应用研究主管，他在最新报告大数据及其对数据仓库的影响中指出：Hadoop是一种载入立即可执行的环境：管理员可以在Hadoop中存储大量数据，而不需要将它们转换为特定的结构。然后，用户就可以使用他们的工具分析这些数据。

　　SAS 研究所的资深行业分析师Jill Dyché也指出，Hadoop使用户能够查看原始数据，这在一定程度上改变了数据仓库使用者的工作方式。

　　她说：在数据仓库领域，我们鼓励提出业务需求，鼓励严格的数据质量要求，但是不鼓励独立加载数据。但是在大数据领域，这一方式得到了颠覆。

　　Apache Hadoop困境

　　Hadoop还有其他优点。例如， MapReduce能够以并行方式处理大数据集。根据行业分析师Philip Russom的观点，它是一个通用执行引擎，甚至能够处理手工编码的代码。

　　但是，如果要使用MapReduce，程序员必须能够操作它的语言。有一些工具并未被广泛熟悉，如Hive，它使用一种类SQL的语言(HQL)访问数据。

　　Russom指出：我曾经听人说：‘Hive很容易学。’但是，它无法真正解决与传统SQL工具的兼容问题。

　　关心数据分析的公司还需要一些技术人员参与(如数据科学家)，他们应该有能力操作Hadoop的专用工具。数据科学家一般具备博士学位，因此，他们的薪水可能很高，而且也很难招聘到。

　　此外，这项技术还有其他一些缺点：Eckerson甚至将Apache Hadoop描述为乳臭未干，而且在安全性、数据质量和元数据分类等功能上存在不足。Hopkins认为它很难用，不成熟。Russom认为这项技术肯定会有不错的前景，但是成为主流应用还需要几年时间。

　　根据eBay高级技术成员和架构师Tom Fastner的观点，即使在eBay，其核心竞争力也不在于Hadoop，而是构成数据分析平台的第二层技术。eBay将它基于Teradata的数据库系统称为Singularity，并且表示它将提供30 PB空间，而并发性低于EDW。Fastner指出，Singularity的最大应用是用户行为分析，这个流程通常可以产生宝贵的商业洞察力。

　　而且，Forrester的Hopkins指出，有其他技术可以帮助企业实现优于Hadoop的大数据方案。所有这些都取决于业务需求。他说：我们分析了大数据技术的两个不同方面。其一是结构，另一个是延迟。

　　每一个方面由低到高排列，大数据工具和技术都属于这些范畴。例如，内存技术(如SAP HANA)可以在高度结构化数据上实现低延迟的查询结果，而大规模并行处理(MPP)技术(包括Teradata和IBM Netezza)都可以处理高延迟的高度结构化数据。

　　Hopkins说，虽然Hadoop能处理多种数据类型，但由于批处理的方式，这使得它无法搭建实时环境。

　　专家指出，Hadoop的光环可能会慢慢消退，但现在它仍然是倍受关注的技术，它的主要支持者仍然是互联网巨头。（文章来自：CDA数据分析师培训官网）

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；