大数据：认识它、管好它、用好它-CDA数据分析师官网

热线电话：13121318867

大数据：认识它、管好它、用好它

2015-12-24

大数据：认识它、管好它、用好它

要问当下什么最热？当属大数据。这个“大”能到什么级别，IBM也无法准确地告诉你。大数据何以如此火热？因为处理大数据的增长，以及利用大数据的能力将成为许多企业的一项优先任务，否则未来几年企业必将受制于这些数据和他们的竞争对手。这不是个别IT巨头独自在鼓吹什么，或人为制造科技新阳谋，而是真实存在的情况。

如何认识它们，管好它们，用好它们。你想好了吗？现在，随着携号转网、3G等渐入人心，运营商们的日子可不那么轻松。至少中国移动、中国联通天天都得思考这样的问题：每天什么样的客户要离开他？这类客户有些什么特征？怎样去找到这类客户？想要解决这些问题，就需要一套系统去分析已经离开的客户是什么原因导致了他的离开，在转网前这些人有哪些行为征兆。在微软内部有这样一个部门，过去六年他们都在为医院生产软件，因此拥有一个巨大的医院数据平台。所有医院的信息，包括临床手术系统产生的数据，都可以输入其中。而微软将这个系统提供给了一些世界的大型医院，包括中国的医院，帮助医院找到并从大数据中提取一些问题。因此，这个部门提取了医院10年的数据，做成一套产品，用历史数据回答医生回答不出来的问题。

事实上，在医疗行业，世界各地的医院都面临一个很大的挑战，就是重新接纳病人入院的问题。病人去医院治病，治好就出院了，但出院的病人中有很大比例可能在之后3～30天时间内，因为与之前所得的病相关原因，需要再次返回医院。是治疗过程或住院过程中出现什么问题导致他们重新入院治疗？过去20多年当中，没有人能弄清楚。如何让数据告诉我们，他们为什么又回来了？机器学习系统花了一段时间，找出非常具体的入院规律，如一些人重新入院的可能性格外高。一旦找出规律，就可以做一个预测模型。只要看到某些因素出现，就可以预测这些病人重新入院的比例和可能性有多高。这套预测模型的价值有很重要的一点，是能够预知病人为什么重新回来治疗。医院有了这个模型，每天在云端运行服务，让病人排队，看看重新入院的可能性。而医生不再只是围绕手边的病人开展工作，还能有些预见性的工作。病人也不会因为再次发病而重新回到医院，大大降低了医疗成本。其实，这些实例还只是冰山一角。今天在金融、政府、公共服务等更多领域，都存在这样的现象：即因高速带宽而产生的Big Data（大数据）以难以想象的速度迅猛增长。而这种快速增长不光使企业数据管理的压力激增。同时，企业还需要更好地利用这些数据，并从中找到与企业业务关联度很高的数据，进而为企业商业决策服务。因此，能否有效挖掘数据的商业价值，每个企业都有必要重新审视自身的数据战略。

谁在制造恐慌

IDC报告指出，未来10年全球大数据将增加50倍。仅在2011年，全球将看到1.8ZB（1.8万亿GB）的大数据产生，相当于每个美国人每分钟写3条Twitter，而且还是不停地写2.6976万年。而未来十年，管理数据仓库的服务器数量将增加10倍以便迎合50倍的大数据增长。无疑，数据量的倍增趋势已毋庸置疑。至于数据的存储、管理和分析等应对大数据的难题抛给I T技术服务商就好了，企业还在忧心什么呢？事情显然不同于1+1=2那么简单。业界一度认为，过去有问题找技术商的想法在大数据时代或许再也行不通。 Gartner认为，全球信息量每年最低增长率为59%，其中15%是结构化数据（原来的数据都可以用二维表结构存储在数据库中，如常用的Excel软件所处理的数据，称之为结构化数据），其余85%将由各种非结构化数据组成。所谓非结构化数据，指不便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、电子邮件、文本、图片、XML、HTML、各类报表、图像和音/视频信息等。

显然，“85%”，对占比如此之高的非结构化数据，企业和技术服务商都不能忽视，要顺利解决大数据需求，首要问题便是先要应对这种大规模数据类型改变所制造的麻烦。因为当这些非结构化数据不断增加时，也给数据库厂商、系统架构师、数据库管理员及其他开发人员带来了前所未有的技术挑战。特别对传统数据库而言，非结构化数据的高增长让传统关系型数据库几乎无能为力，并且以传统数据库跑大数据，对系统软硬平台的要求都极高，成本又是企业的一大问题。对此，SAP HANA项目组一位开发经理告诉记者，应对大数据需求，传统数据库存在几个致命问题：一是它的设计都是关系型数据库，基本上DB2、SQL Server都是以行式展现的；二是它的存储都在磁盘上，对计算机而言，磁盘的运转速度跟内存无法比拟；三是网络传输瓶颈，报表在客户端，数据在后台，完成一次查询动作，需要经网络传输一个来回，一旦数据量巨大，网络传输压力可想而知。

而鉴于大数据分析当前在国内还缺乏较为成熟的实践经验，其方式方法又与传统数据仓库及商业智能系统都存在一定差别，企业想要用传统数据仓库和商业智能工具来应对明显也力不从心。曙光公司大数据研发项目经理宋怀明表示，目前市场上的商业智能软件主要还是针对结构化数据进行挖掘，对非结构化数据一是处理不了，另外在处理结构化数据上，定位也有所不同。商务智能软件非常昂贵，企业如果不将数据业务跟其商业利润挂钩，而只是做数据分析和挖掘，买商务智能软件极不划算。因为现有商务智能软件是按数据规模来收费的。像银行这些交易数据本身跟利润挂钩且又需要进行一些数据分析，但其数据规模比起互联网企业小很多的，它们买商务智能软件比较合适。但对网络的日志行为分析、关系挖掘一类应用，不仅数据量很大，数据结构也很复杂，商务智能软件就不是很适合。因此，企业还是要根据自身需求来选择。而且大数据分析所需软件跟传统商务智能、数据挖掘软件的差别还是很大的。看来，大数据需求面前，企业的担心都是数据类型改变惹的祸，罪魁祸首便是暴涨的非结构化数据。出于这些因素的干扰，企业在大数据需求面前顾虑重重也就不难理解了。

久经考验的传统关系型数据库应用既然不可能马上就全面被替代掉，传统数据库厂商也不可能为此自毁长城，全盘推翻自己生存的根基。是不是再无他法了呢？现实情况或许还不那么糟糕。对数据类型改变所带来的挑战，Informatica公司的一位高级产品经理Ram Subramanyam Gopalan在其博客中指出，图像和音频，甚至视频其实都能转换为文本数据，而文本数据则可转换为实体集合，即包含属性与关系的结构化数据。经过一些处理能将这些数据的结构找回来。虽然目前对找回这类数据的结构缺少一定的工具，但至少非结构化数据转化成计算机熟悉的结构化数据是存在一定途径的。只是等待能够实现这种转换的条件出现还需要些时间。如果赶在大数据时代真正来临前，这种数据自身可以进行转化的情况还未实现，那么至少从现在来看，从传统数据库厂商到传统数据分析厂商不会坐以待毙，起码积极提出了各自的一些应对办法。

尽管这些办法还都处于小试牛刀的状态，但至少让企业有章可循。欧美厂商唱主角 Gartner在2011的“新兴技术成熟度曲线”报告中将大数据视为一项具有新特点和高影响力的技术趋势，围绕大数据、海量信息处理和管理等转型技术将在未来五年进入主流。而嗅觉敏锐的欧美存储和数据仓库厂商早已闻风而动。毕竟EMC、NetApp、HP、IBM、Oracle、微软这些传统厂商要考虑如何在快速变化的大数据时代迅速定位。因此，2011年前后，许多欧美巨头纷纷布局大数据市场。数据仓库厂商一下成了巨头们收并购的香饽饽，各类大数据解决方案或产品也纷纷推向市场，一派热闹景象。像EMC索性利用收购来的Greenplum、Isilon和VMware，将自己的未来身家性命全部押宝在了大数据和云计算的交汇点上。IBM利用收购来的数据仓库厂商Netezza以及InfoSphere BigInsights和Streams软件来证明自己在海量数据处理上实力一如既往。NetApp收购Engenio以及后来与Cloudera合作，都让它在大数据占据一角。Oracle在2011年下半年通过接连推出大数据机和Exalytics商务智能云服务器两个重要的大数据分析产品，彰显自己在大数据时代也非弱者。

那么，大数据时代到底什么时候到来？各家说法不一。EMC中国卓越研发集团主席范承工博士告诉《软件和信息服务》记者，“我们已经处于大数据时代了”。其实EMC说自己两年前就在谈大数据并非妄语。目前在EMC的客户中，大多数大型企业客户在数据存储量方面早已达到PB级。问题是，当前用户对硬件系统要求要有非常高的可扩展性，要求能够应对大数据存储需求。因此，在范承工看来，比起以往的IT系统，现在大数据需求对系统技术挑战将表现在几个方面：基于英特尔架构较便宜的硬件基础作为技术组成部分，再往上一层，对分布式存储软件的需求会更大，即怎样能够使非常大且可扩展的分布式存储很好、很便宜地让客户用到；然后再上一层，是怎么和新的数据管理系统很好地集成。

为了应对大数据，EMC内部不光已将其全部存储产品都逐步向大数据需求的平行扩展方向做改进，还借助收购Grennplum和Isilon，宣布支持HDFS（即Hadoop的分布式文件系统），可对Hadoop运算产生支持，实现从硬件、软件和数据处理系统集成上统一应对大数据时代的存储要求。说起T-mobile，它是美国一家手机运营商，正因为用了EMC的Greenplum产品，只花两个星期做了一个大规模的数据分析，最后竟然获得了每年运营增加1亿美元这样一个很可观的收益。

不过，大数据处理环境并非是在全盘否定企业以往的IT系统。范承工认为，有的系统是可以在整个大数据处理系统环境中留存的；有的系统可能会随着大数据的产生逐渐过时，并被淘汰；而数据库技术仍有需求，不过会和大数据系统并存。而随着大数据需求的激增，IT厂商的竞争势必将更加激烈。在范承工看来，在大数据时代，谁的位置离数据更近，谁将会具有更多优势；谁对新技术掌握最快，谁就具有优势，“机会与挑战并存”。毫无疑问，大数据需求不光要厂商重新审视自身定位及技术实力，也为IBM、EMC、SAP等这些长期占据高端市场的企业带来了福音，在高端市场增长乏力的情况下，大数据需求的开启无疑为他们提供了一个再度深挖这一市场的蓝海。在此，范承工毫不避讳地告诉记者，大数据对传统数据库的颠覆无疑会直接影响到EMC传统存储业务收入，这在EMC整体收入中占据了相当的部分。但EMC收购Greenplum，尤其后者对非结构化数据的存储，足以弥补依存传统数据库市场的业务压力。Greenplum在去年成为EMC上升最快的一个产品，上升4倍是最佳佐证。

此外，EMC还推出了统一分析平台（UAP）来全面应对大数据需求，“一种技术统治天下的时代已经过去，现在是一个百花齐放的时代，而最好的数据分析平台就需要将很多种不同技术结合在一起，我们在UAP里结合了传统数据库、分布式数据库以及Hadoop等非结构化数据处理系统，再配以EMC的合作软件Chorus，能够使每个数据分析师有一个很好地完整平台，各种各样来源和类型的数据都能够进行整合性分析”，范承工认为UAP将是EMC应对大数据的又一个致胜筹码。就在企业用户、传统数据库厂商和存储厂商都在为自己在大数据需求面前想尽办法时，SAP HANA的推出无疑为沉闷的市场投入了一剂强心针。用SAP自己的话说，HANA是一款全新的数据库，它不光解决大数据量的问题，还解决非结构性数据库的问题。比起传统数据库，HANA运算到底有多快，用户运行一个业务数据可能在上百万条的报表，传统数据库大概要跑一天多，而现在HANA上跑不到十秒钟就处理完了，用SAP业务人员的话说是“极其夸张”。SAP中国区副总裁许正冈指出，传统关联数据库很难同时快速地访问数据，因为它里面建了很多预置访问，这也是为什么数据库那么庞大，出来的结果又非常慢的原因。

据了解，HANA首先是基于列的，基于列的好处是在做聚合、做分析的时候很方便。另外，它完全是在内存当中，做任何计算都在内存中完成，由此内存产生的运算速度无疑远快于磁盘，可能数据量有几百万条，但运行后的结果就几k，瞬间完成，所以HANA被SAP视为至宝。为使HANA为企业所用，SAP业务人员表示，对目前已部署了传统数据库如SQL Server的企业用户，如想加速搜索和分析，企业只需购买一个经SAP认证的集合了HANA软硬件在内的硬件服务器加在系统机房内，并结合B1做简单设置，就可以利用HANA快速的运算来进行数据分析了，并对企业原有数据库无需做任何改变。

下一步，SAP将推出HANA的全新版本，作为完全替代SQL Sever等传统数据库产品的利器，实现所有业务运算、搜索、分析都由HANA完成，最大数据量可达PB级。SAP亚太及日本区商务解决方案事业部高级副总裁柯德泰指出，在大数据背景下，SAP的主导战略将依赖以HANA为代表的内存计算技术，而HANA与移动应用的结合将产生更强大的效果，“帮助用户在掌上设备分析海量数据，并在几微秒内获得结果”。

不过，虽然HANA在现有技术上是完美产品，但对企业的TCO却也难以尽善尽美。在处理TB/PB级别时，选择HANA对企业在内存和硬件上的投入又是一个挑战。当然HANA本身具有压缩技术，对越大的数据库压缩比例也越大，耗费内存就越小，访问速度更快，可在一定范围内帮助企业节省一部分内存空间，而一旦用户数据量难以估计时，恐怕仍无法避免内存上要做更大投入。范承工认为，HANA是一项创新技术，但HANA也存在一些短板。它对某些工作类型比较适合，但对另一些可能不一定很适合，比如对某些工作流的处理可能并非最佳选择。至于IBM这个蓝色巨人，大数据市场更少不了它的身影。在IBM内部专门有三个最核心的部门来应对大数据需求，包括全球企业咨询服务部、Cognos业务分析与优化并购部门，以及中国研究院行业解决方案研究部门。“我们正进入重大的跳跃阶段，‘大数据’的到来，开启了信息技术的新时代，使用大数据，可将解决方案从反应型转变为规范型。”IBM技术创新全球副总裁Bernard S.Meyerson博士如是说。基于大数据的分析、预估与优化等信息技术，为经营者提供一个快速、精确与可预期结果的新型战略决策模式。一旦大数据的价值被发掘出来，数据将成为企业创造价值的源泉，也将成为行业竞争的成败关键。

通过软件、研发与服务三位一体的整合能力，无论是收集数据以管理风力发电场的布局，还是在社交媒体网站上评估客户意见或预测医院的潜在致命感染，IBM认为它都可以帮助各行业客户不断延伸数据的价值。作为传统数据库厂商的代表，IBM在其大数据版图中，对非结构化数据的处理依旧采取了收并购策略来实现。比如2011年，IBM收购了两家非结构化数据处理软件厂商，风险分析软件开发商Algorithmics及英国安全分析软件开发商i2。此前五年，IBM为此投入了超过140亿美元收购了25家专注于分析软件领域的公司，借以帮助其客户处理来自社交媒体、生物测定和犯罪数据库等来源的非结构化数据。对微软而言，目前采取了3种解决办法来应对大数据需求。微软公司SQL Server产品市场经理郝雪莹表示，对非结构化数据存储的分析，建议用户放到Hadoop上（在www.HadoopAzure.com根据实际需求租用）进行分析；对结构化数据和小部分非结构化数据，微软即将于7月1日正式在中国大陆发售的SQL Ser ver及其中所含Power view就可实现一定规模的数据分析；再大规模的数据，可以选择并行数据仓库（PDW）进行海量分析了。谈及大数据，与之同样被反复提及的还有一个词――Hadoop。作为大数据处理平台的一个重要组成部分，Hadoop成为众多厂商应对大数据需求的一个事实上的标准工具，当之无愧地也成为许多传统数据库及存储厂商应对大规模非结构化数据挑战的救命稻草。

不过，郝雪莹认为，需不需要Hadoop是应企业应用情况不同而不同的，比如SQL Server内置对非结构化数据的支持，如XML、博客数据类型，最大可以存储2G，图片、word文档都可以。如果企业的数据库可以处理或是适合数据库处理，那么不一定需要Hadoop，使用与否需要根据企业的业务要求以及业务场景而定。SQL Server有连接器连到Hadoop上，不同场景，可以以不同方式管理和使用数据。国内实地观望，备战中当然，如同云计算一样，对大数据及其引发的问题，市场依旧呈现出国外厂商唱主角，国内厂商响应积极却从者少的局面。但市场需求却丝毫不亚于国际市场。

2011年，电商热闹的“双十一”及“双十二”大促销活动，因海量数据瞬间爆发而导致网络系统一度崩溃。电商IT技术服务商上海商派的I T运维负责人表示，突发的访问流量主要从系统架构设计和系统运维两个方面考虑。系统架构设计的时候要充分考虑扩容的便利性，硬件资源的准备是很方便的，麻烦的地方在于软件架构要能适应硬件的增加。

对2011年大促出现的问题，商派则建议电商企业采取将各个子系统模块化、标准化，降低各系统间的耦合度，将复杂的高并发问题转化为简单的标准模块拼装，并且尽可能实现拼装过程自动化的方式。应对高并发系统同样需要有类似系统，如缓存系统、队列系统。缓存系统类似于防洪堤，防止重复查询，如刷新页面这样的动作传递到后端存储系统，导致无意义查询增加系统负载。队列系统就相当于泄洪区了，处理系统实在顶不住，就先让服务请求在队列系统里排队，依次进行处理。作为I T服务商，除了有系统设计，架设能力外，还要有持续改进能力，让系统硬件架构、软件架构匹配良好。其次就是软实力，要能组织起人力、物力应对可能出现的突发流量，如活动前做好压力测试，提前制定到应急预案，不打无准备之仗。对于“双十一”和“双十二”的电商大促，商派采用的系统方案主要有两部分：一个是shopex开放平台，一个商家的ERP系统。前者是一个连接商家ERP系统和淘宝开放平台的桥梁，之所以加上这个设计的目的是屏蔽淘宝开放平台快速变化对商家ERP系统稳定性的影响，并起到压力缓冲的作用。 ShopEx开放平台在大促期间起到了拦水大坝的作用。系统根据商家ERP系统的负载情况控制订单流量，避免商家ERP系统被海量订单冲垮。

当时流经开放平台的订单量有100多万条，API调用高达300多万次。而大促期间除开放平台负载暴涨外，商家ERP系统都能维持正常的工作负载运行，订单量最高的商户订单量达到10万单。显然，在以往用户的接触中，他们对大数据处理能力的需求，包括效率和安全性，以及更深层次的数据背后所反应出的消费者行为都让商派看到了大数据分析挖掘的价值所在，目前这家IT技术商正在积极备战中。值得注意的是，不同于IT厂商集中于大数据分析领域的争夺，国内市场对大数据的需求还存在一些不同的看法。爱数软件产品副总李基亮指出，在他们接触的用户中，企业对如何提升大数据的保护以及如何提高现有运营平台的资源利用率颇为关心。

事实上，企业信息化资产是数据，如何高效地保护大量数据，越来越多的企业压力感倍增。李基亮表示，爱数在大数据领域的出发点是数据，这也是爱数名称的来源，爱护数据。2012年，他们将着重布局智能数据管理解决方案策略，围绕数据生命周期的生产、使用、保护、归档和销毁5个阶段做足投入。爱数在云计算和大数据领域有着大量的投入：一方面持续一体化技术框架带来的解决方案优势；另一方面是正在投入的云计算基础技术架构，全面带动爱数全系列产品进入云计算和大数据时代。围绕大数据的核心非结构化数据，欧美厂商可谓做足了文章。

而在国内，真正具备处理非结构化数据实力的厂商几乎鲜见。不过，曙光数据处理产品XData下半年的推出有望填补国内这一领域的空白。对大数据研究已有8年之久的宋怀明，目前承担了曙光大数据研发的重要任务。现在，围绕曙光的产品及服务能力，他们主推四层架构的大数据软硬一体化平台解决方案：包括最底层物理层提供盘阵和存储服务器（i640）；再上一层是虚拟层，是代表国内计算技术、网络通信技术以及文件系统技术发展方向的曙光并行存储系统Parastor100、200（16PB云盘）、300（研发中）；再上一层是数据处理层，是目前曙光针对超大规模结构化数据查询和处理的数据仓库系统DRAC，数据处理量可达100TB～600TB，甚至1PB。XData代表的正是这一数据处理层的下一个关键产品；最顶层是应用层，主要用于处理日志分析、用户行为分析等。提到XData，宋怀明兴奋不已。数据处理是曙光大数据战略的核心，重在对离线数据的分析和挖掘。而下半年将推出的XData，其意义在于曙光将突破非结构化数据瓶颈，使得他们在分析大数据中各种类型的数据时能从容应对。而XData的数据处理能力将达到几个PB，甚至10PB。再结合曙光在国内云计算领域的实力，可以想见，未来在大数据与云计算的时代，在一批抗衡国际技术力量的国家队中，曙光无疑将成为一股核心力量。 “国内大数据处理还较为落后，数据是有了，还不知怎么用，怎么挖掘价值，曙光准备用技术推动市场需求，比如许多互联网企业，包括政府网站、媒体网站等。”宋怀明指出，“在大数据中有两个可靠性也需要特别注意，一个是数据的可靠性（业界通过廉价的机器和多个副本方式来处理），一个是处理过程的可靠性（采取MapReduce的方式处理）。” 对业界追捧Hadoop，范承工表示，Hadoop本身非常有用，但它并非一个完全的大数据处理系统。Hadoop欠缺的是一个比较实时、互动的系统，当数据产生的同时能够有回应，不能做提前预判，这是Hadoop做不到的。谁说了算现在来看，非结构化数据已经算不上洪水猛兽。IT服务商还是通过自己的方式为企业解决了这样的难题。但另一个问题又摆在了面前。

面对大数据，企业在获取数据分析价值的同时，究竟该如何选择才有最优的TCO考量，恐怕是每个有大数据需求的企业决策者都要在心里掂量一番的问题。当然，除了对传统软件的颠覆，大数据分析对企业现有硬件设施的挑战，包括逻辑划分、访问通路、带宽效率等方面是显而易见的。分析人士指出，在实施大数据分析项目前，企业不仅应该知道使用何种技术，还应该知道在什么时候、什么地方使用。混合应用场景显然是当前大数据分析环境一个比较合适的选择。传统数据库、传统BI工具都可以依旧针对结构化数据使用，而对非结构化数据的处理，则由高级分析工具上阵。至于各大厂商让人眼花缭乱的解决方案，究竟谁是最佳选择，恐怕没人能给出最佳答案。如何挖掘大数据的价值，关键还在于企业自身的决策层，面对市场如此之多的选择，企业要清楚地认识到自己究竟想从大数据分析中获得什么。

“企业在进行技术选择时不应只看首次投入成本，Hadoop并非一劳永逸，你需要不断对其进行维护，考虑持续的投入，无论是人力还是物力，它都可能会比传统的EDW要大。因此企业不应一味迷信于新技术，无论是购买平台还是进行定制，用户需要从自身需求出发。”Teradata首席客户官周俊凌如是说。郝雪莹则认为，无论用户扫描什么样的数据，微软这样的厂商都能保证用户能拿得到，能够分析得了，分析的速度够快，不出错。但是，“我的业务模型是什么，业务真正的洞察力却要企业自己去看”，今天想把油价和车价拿出来分析，那是用户自己想的，微软不会告诉你要去分析油价和车价、业务到底要做什么，这不是微软的所长。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；