登录
首页职业发展大数据不是谎言
大数据不是谎言
2014-11-24
收藏

大数据不是谎言

近日在网上看到一篇题为《SAP Sybase CTO:“大数据是个大谎言”》的评论,笔者被其标题所吸引并点击阅读。那么,这篇看似与当今火热的“大数据”概念相悖的文章都说了些什么呢?

  我现在主要关注存储领域,对于软件和应用有些外行。不过像EMC这样的传统企业存储厂商都通过收购Greenplum进入大数据领域,笔者不得不也做些了解,下面简单谈谈自己在这方面的认识。

  大数据究竟是不是一个谎言?

  SAP在该文中的观点,可以简单归纳为:使用列式数据库就可以应对包含非结构化数据在内的“大数据”分析。当然SAP也使用了“数据仓库”一词,就是说他们在数据量的增长方面,与新兴的Teredata(天睿)、被IBM收购的Netazza,以及被EMC收购的Greenplum等公司的认识是一样的。

  属于SAP的Sybase这样说自然有其所处立场的原因。根据我的理解,列式数据库中每一列的长度可以不固定,适用于存放大小不等的数据对象,因此能够处理传统行式数据库无法应对的非结构化数据。SAP和上述几款数据仓库产品也都提到了压缩对于节省空间和在一些情况下提高数据加载速度的重要性,类似的是被Oracle分别收购的Sun ZFS和Pillar Axiom存储产品线加入了适用于自家数据库的混合列式压缩功能,将相关工作卸载到存储硬件上来执行。

  笔者认为,“大数据”相对于传统交易型数据库,除了强调挖掘其商业价值、分析之外,上面没有提及的还有对硬件设备的需求特点。请大家先看看下面这个表: 

 
笔者较早下载的一个EMC文档中,Greenplum DCA的规格表
  上面为EMC Greenplum DCA(Data Computing Appliance,数据计算设备)产品家族的规格表。其中GP1000和GP1000C的区别主要在于后者针对大容量,应该是使用了低转速(7200rpm)硬盘,因此未压缩/压缩可用容量分别达到了124TB和496TB,数据扫描速度为14GB/s;而GP1000估计是相对小容量高转速(10K/15K rpm)的硬盘,容量比不上GP1000C,当数据扫描速度高达24GB/s。
  这里强调数据加载和扫描速度(带宽)而不是IOPS,可以明显地反映出与OLTP应用之间的区别。另外,这两款Greenplum DCA都是由2台主服务器和16台片段(Segment)服务器组成,也就是说都是基于高性价比的工业标准x86服务器的MPP(大规模并行处理,最多6个机架)分布式可扩展架构。这也是许多“大数据”设备共同的特点。
  如果说Greenplum DCA是该产品线的硬件基础的话,那么像Greenplum Database、Greenplum HD就是运行在上面的数据平台,如今其中又加入了一位新成员“Made in China”的Greenplum Chorus。
EMC全球副总裁兼中国区总裁蔡汉辉(左)和全球副总裁兼中国研发集团总经理李映(右),借一个月之前EMC宣布收购Privotal Labs和推出Greenplum Chorus之机,于上周向国内媒体介绍该公司的大数据战略。
  对于大数据,EMC全球副总裁兼中国卓越研发集团总经理李映博士的看法是:“首先大数据的第一个概念就是大,无论是存储也好,数据分析也好,你原来可能说可以处理TB,现在随着硬件和软件的提高,现在你的数据可以乘一、乘二、乘三,是不是可以认为自己处理大数据呢,我们理解是不是的,它是随着数据量的增长和复杂程度产生对你处理数据和存储数据必须采取完全不同的处理的方法、解决的方法才可以解决这个问题,所谓的从量变到质变,这才是大数据的概念现在变成热门最主要的目的。原来你可能是纵向扩展,你原来可能是交易数据,在这个方面很容易处理,但是你在传统的数据不能处理的时候这样也可以称之为大数据。”
  EMC Greenplum UAP(统一分析平台)
  在Greenplum UAP(统一分析平台)架构中,底层硬件的选择范围比较灵活,可以是“云架构、x86集群设备或者一体机”,它上面由数据平台管理员负责的Greenplum数据库和Greenplum Hadoop(HD)我们已经不陌生了,那么再往上除了“数据访问和查询层”、“三方/合作伙伴工具和服务”之外,在与数据打交道的各种用户之间又加入了一个“Greenplum Chorus-分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。
  专门负责Greenplum Chorus产品线,EMC中国研发集团的资深产品经理庄富任先生是这样表示的:“去年对于Greenplum来讲有一个很重要的时刻,我们提出一个新的概念,叫做统一分析平台,就是针对海量数据有一个统一分析的平台,它包含什么呢?有三个主要部分,刚才也提到了第一是Greenplum的数据库,第二是Greenplum HD非结构化的数据,这有什么不一样的呢?数据库很传统,就是储存一般化的数据,这已经发展了好几十年了。我们看到客户越来越多的需求,刚才提到非结构化数据,什么是非结构化数据呢? 
  我们可以看见文件是非结构化数据;对于Internet来讲网站的数据是非结构化数据;对电信业者来讲,每个人打电话的明细是非结构化数据。这样的数据增长的非常快,我是不是有能力去帮助这些客户储存这些数据,用一个很便宜的架构,去存储这样的数据?这就是Greenplum的产品公布,可以帮助客户用最便宜的价格去存储这些数据。第三就是Greenplum Chorus,是基于这上面的协作分析平台,因为有了数据的储存,需要有一个共同的平台去分析底下的结构化跟非结构化数据。” 
  Pivotal Labs、Chorus及其中国研发团队
  EMC全球副总裁兼中国区总裁蔡汉辉在演讲中提道:“我们在3月下旬刚刚收购了一个公司叫做Pivotal Labs,这是个旧金山的公司,就是在敏捷开发方面提供服务和软件的。(上图)底下都是一些有名的公司,他们都是Pivotal Labs的客户,比如Salesforce.com、Twitter等等。”
  对于为什么要推出Chorus,或者说收购Pivotal Labs这家公司?李映表示:“更重要的是把这个数据分析的结构更快的应用到应用中,使用到和你的业务流程很好的结合在一起。能不能很快的满足你的二次开发或者需求,这是很关键的要素。EMC最关键的要素是我们能够提供一体机的解决方案,同时我们满足客户有开放的选择,第二个是很好的敏捷的开发,很快的把现有流程改变,以及一些新的应用开发达到很好的满足,这是我对打包方案的看法。”
  EMC表示Chorus是全球第一个基于协作分析的大数据平台,号称“数据科学家的Facebook”。对于EMC Greenplum Chorus中国造,又是怎么回事呢?
  Pivotal Labs公司创立于1989年,总部位于旧金山,而其研发团队应该就在国内。我们觉得这给他们被EMC收购后并入中国卓越研发集团北京研发中心带来了很大方便,估计在对国内用户的支持上也容易做得比较到位吧。
  对于Greenplum Chorus的四大重要功能:个人沙盒、数据发掘、协作分析和开放架构,以及将于今年“开源”,这些已经偏向软件应用及开发领域,笔者没有什么更多的高见。如果再多写一些难免人云亦云,想进一步了解更多信息的读者估计也会看到其他媒体的相关报道,我想EMC也是乐于讲给用户听的。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询