理理大数据的脉络-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读理理大数据的脉络

理理大数据的脉络

2016-02-20

理理大数据的脉络

大数据的生意到底是啥?说白了就是数据分析(analytics)的生意，原来的商业智能(business intelligences)也是分析的生意，如果把原来的商业智能称为分析1.0，那大数据其实就是分析2.0

先看看商业智能大数据的生意到底是啥?说白了就是数据分析(analytics)的生意，原来的商业智能(business intelligences)也是分析的生意，如果把原来的商业智能称为分析1.0，那大数据其实就是分析2.0。

　　先看看商业智能是怎么样一个生意。

　　商业智能的场景是什么呢?到底能给客户带来什么使得其愿意为技术买单。简单来说就是帮助企业实现KPI管理，就是为需要管理的企业流程定义关键KPI指标，销售额多少、库存量多少、合同数量多少啊等等，商业智能系统可以把企业的过程数据(例如实际的订单)转换为相应KPI，要是手工来做这个KPI统计，企业不知道要花多少资源和时间才能完成。这个有个高大上的名字，叫做Performance Management，或者Corporate Performance Management(CPM)。

　　这个需求场景几乎可以应用到所有企业，毫不费功夫复制到这个垂直行业，金融企业可以、电信企业可以、能源企业可以、零售企业可以，所有财富五百强的企业都要用，每个企业的运营人员都需要把握自己公司的关键流程。企业建设这样的系统的投资回报率无容质疑，市场需求是无疑的。

　　这对于产品经理来讲是个精美的产品模式，单一的模型、普世的刚需、海量的市场。

　　技术人员也开发了一套技术体系支撑这个商业需求。首先是数据管理。数据要从各个独立的系统CRM、ERP等汇聚在一个池子，才能够进行全局指标的计算，这个池子就是数据仓库(data warehouse)，汇聚的工具是数据集成工具(data intergration)。这里首先要解决的一个技术难题就是数据量比原来单一系统的大，需要解决这个问题才能谈得上分析，Teradata 还有IBM DB2 DPF就用了分布式(简单起见先用这个词)的架构解决这个问题。

　　其次是数据分析。技术人员发现，KPI的分析其实是个多维分析的问题，比如说在对销售情况进行分析时候，对所有的交易，从年份纬度看到底每年销售了多少，或者从区域纬度看各个省销售了多少，或者从产品纬度看哪个产品销量最大，就是对同一套原始数据从不同纬度进行统计分析。这个技术最大的难题就是数据量太大，分析速度跟不上，一个企业可能一年下来会有数十甚至百亿级别的交易，要对这些数据进行求和平均，极为耗时，有些甚至需要数小时，这样实用性不高。为了解决这个问题，就开发了一种预先计算的机制，把指标先计算好，需要看指标时候直接给指标。这些难题都解决完了，还有一个问题就是数据的可视化，把指标通过仪表盘的模式展现给用户。

　　商业智能产业链好，我们再来看看商业智能的整个产业链是怎么样的：

　　商业场景：Performance Management, 同时有一套corporate performance management 的理论和方法，如何选流程，如何指标化。

　　应用产品：CPM分析平台：BI平台(多维OLAP分析)数据平台：数据仓库data warehouse工具：数据集成、数据质量这块的软件市场约328亿美金(2014年)，是一个足够大的市场空间，加上硬件及服务也能达到上千亿：

　　Analytic applications：21亿CPM suit：27亿BI Platform：89亿Data warehouse：约150亿DI&DQ：41亿——Source Gartner 2015我们看到，传统方式里，企业软件的赚钱模式是在平台，尤其是大平台，我们看到BI及数据仓库平台合计239亿美金，占比超过70%。

　　大数据平台失守商业模式的颠覆总是来自外部，和意想不到的领域。

　　上面把BI和报表基本划等号是为了简单理解起见，其实以前也不是没有复杂的数据分析产品，上面没有包含另外一个分析的细分市场predictive analytics, 其平台就是Advanced Analytics Platform，就是不仅仅做KPI报表分析，还做更加深度的数据挖掘(大数据分析的老祖宗)，SAS，SPSS这些厂家的产品可以做更为复杂的统计及模式发现等应用，但是这块一直发展不起来，仅仅约12亿美金的市场空间，主要是投资成本太高，也没有大量可复制的场景，仅仅在银行及电信领域应用比较多。

真正的引爆点来自和企业IT市场关系不大的互联网厂商，谷歌在2004年抛出了论文，雅虎的人在2005年弄了个开源的Hadoop，业界07、08年左右开始爆炒大数据概念，互联网企业开始引入Hadoop 架构，相关大数据的初创公司蜂涌而起，Cloudera于2009年成立，Hadoop正式版在2011年发布，企业市场也开始在2012和2013年以后开始慢慢接受大数据的概念。

有一点比较关键的就是大数据的发展是bottom up的，先由yahoo把google的东西抄了，用开源做了一套，因为是互联网来的，所以在企业领域是否能够大规模高效使用就只能由市场的发展本身来回答，这个是完全新的一种成长方式。而这里面最为重要的就是数据的存储和计算带来的技术创新，HDFS的分布式文件系统可以廉价的存储PB级的数据，HBase把传统数据仓库存储的数据量从TB延展到TB，而计算原来依赖于数据库的并行处理能力，而现在Map/Reduce提供了一个更为通用的分布式处理模式，意味着为无数的分析场景打开了可能性。

数据的存储与计算是整个大数据里面最为中核的平台，下面的数据也证明这点。我们看看目前大数据市场已经IPO以及被投资比较多的公司：

IPOTableau(市值55亿)，可视化Qlik(市值26亿)，可视化Tibco(市值39亿)，可视化Splunk(市值67亿)，日志分析Hortonworks，HadoopMost fundedCloudera(融资1040M)，hadoopPalantir(融资950M)，分析平台Mongodb(融资311M)，NoSQLDomo(融资250M)，云BIMu Sigma(融资195M)，大数据服务Datastax(融资190M)，NOSQLMapR(融资174M)，Hadoop Hadoop发行版Cloudera的投资已经超过10亿美金，即使按照市盈率10计算，其市值已经将近100亿美金!Hortonworks也在2015年正式IPO。Cloudera，Hortonworks，MapR的三架马车格局胜负已分，Cloudera是当之无愧的领头，MapR估计往后的日子越来越难。

另外一个投资重点就是NoSQL数据库，MongoDB和Cassandra(datastax)成为NoSQL市场的事实垄断者。加上各厂商在2010-2011年大肆收购的MPP数据库，Greenplum，Vertica，Neteeza，Aster data，数据存储和计算平台基本格局已经确定，Hadoop/Cloudera 和NoSQL/MongoDB是目前胜出的两匹马。

这三条赛道基本跑完主赛。

传统的IT厂商对关键的基础平台是必争之地，在BI里面数据管理的数据仓库占150多亿，占软件收入的将近一半。但是开源完全打破了这种模式，由于Hadoop和大多数NOSQL本身是开源的，所以不太可能继续采取高溢价方式销售，大多数厂商已经接受了Hadoop发行版不可能赚大钱的现实，2014和2015年里，Intel、HP、微软等都纷纷放弃自己的发行版和解散研发团队转而依赖于Hortonworks 和Cloudera。大家都意识到，最后会像红帽和SUSE，剩下两家做开源发行版的小厂商。而MongoDB和Cassandra是NOSQL里面最后能存活下来的。

看似机会无限的大数据，对于大厂商而言却像异常难以把握的泥鳅，大家都不得不忍痛放弃至关重要的数据平台。甚至连最后本来还想坚守的MPP，等到Pivotal把Greenplum开源，把这块彻底打碎，所有大数据的数据管理和处理层都完全开源，守无可守。原来数据仓库的巨头Teradata的市值已经蒸发几十亿美元。

至此为止，最重要的数据处理层基本完成主要投资，大局已定。新出现的Spark是目前这里唯一最大的变数，但也很容易被Cloudera这些厂家吸收进其发行版，Databricks似乎寄望于云能够帮其突局。

大厂的失守，对于小厂商来说是绝佳的黄金机会。2013年以来，慢慢很多企业开始逐步采用Hadoop，银行、电信等大行业开始有大量早期的创新项目单子出来，早期的采用意味着实验性质为主，大量的定制化，开源也意味着需要大量的服务，于是一大堆没有特别大技术含量，但是做大数据项目的公司如雨后春笋，大量涌现，大家看到现在中国市场有这么多的大数据公司很多本质上就是这个大背景下起来的。这是个前途无量的市场。

2014年Hadoop的订阅及专业服务市场约6亿美金，2017年预计增长三倍到17亿美金，NoSQL在2014年约4.5亿美金，到2017年约17亿美金，复合增长率超过40%，而软件及软件服务的收入仅占项目成本里面的10%，还有大量的硬件及实施的费用。

应用碎片化之困前面谈到，大数据的勃发是因为新的数据存储和处理技术的出现，至于说这项技术到底能给业务带来什么商业价值，需要去重新探索。于是各个行业涌现无限的垂直行业分析的，日志分析、医疗分析、金融分析、安全分析、电信分析、教育分析、能源分析等等。但是不幸的是目前还没有发现太多杀手级的应用。

已经IPO的公司里面，Splunk是做企业IT运维里面机器日志分析，从而优化运维的效率，是传统的ITOM细分领域下的一个应用，这个应用是大数据分析最成功的场景之一，目前Splunk市值已经超过67亿美金。除了这个，剩下的三个是Tableau，Qlik，Tibco总共市值超一百亿美金，多是数据可视化的公司。说白了就是原来的一些报表应用，还有就是把数据聚集起来，让所谓的数据科学家捣腾捣腾，进行数据探索。 IBM提到了这几个大数据最有价值的场景：

　　Data explorationEnhanced 360 degree view of customersSecurity intelligence extensionOperational intelligenceData warehouse modernization我们看到多少都还有原来BI系统的影子，客户画像、流程监控、数据仓库的现代化。数据探索和安全分析是两个相对比较不同。但都说不上可以直接给企业带来多大的价值。

　　对比起BI市场那种简单和高度可复制的报表应用，我们可以更加深深体会到大数据在应用层面的艰难探索。中间数据平台的失守、分析应用的高度碎片化是大数据厂商的大数据焦虑的来源。

　　分析平台将成为焦点战场分析平台似乎是一个机会。在大数据的浪潮下，涌现很多基于Hadoop生态的新的BI平台以及数据探索平台。原来传统的分析平台，包括基于统计分析的SPSS还有SAS等，虽然还继续会扮演很重要的角色，但是这些其实已经在市场上存在几十年的平台，对于解决实际的行业问题来说还是太远，非常难以把分析的价值变现。

　　一方面是走垂直行业的路子，各种垂直行业的分析应用以及垂直行业的分析平台，是大数据价值变现的一条路，大大降低用户的使用门槛。整个创业的市场，也在制造无数的垂直领域的分析平台。

　　另外一方面是更加易于产生分析价值的平台，大数据的最核心价值是产生智能，发现人类难以发现的事情。这个的典型代表是融资额接近10亿美金的Palantir。

　　Palantir是通过为美国的情报部门的反恐服务长起来的，其本质就是把人类活动的模型建模，然后把人类实时的活动及时间输入，通过对时间、地点、人物、事件的关联分析认识事件，其最具轰动效应的就是帮助中情局发现本拉登，是一种所谓的Human centric或者是Human Driven的分析。在其应用场景里面，比如说航班信息、出入境信息、移民信息、人口流动、其他交通信息、社交网络、电话等信息组成分析的基本要素，这种要素里面地理信息、社交关系、拓扑关联、可视化展现及关联分析非常重要，比如说其可能要完成的任务是要分析所有来自叙利亚一个月内进入美国的航班里面，电话和社交信息可疑的人，同时接触过危险品交易的人，然后把这些可疑的人员分析出来，同时把他们的关系圈分析出来，把他们目前所在的城市及住址在地图上显示出来。其成功之处在于把要解决的社会问题需要的方法沉淀到平台里面，只要是涉及到人和事的分析，其都可以帮助完成，公安、金融反欺诈、流行病这些都需要类似的功能，对于电话、位置、住宿、交通痕迹、社交网、购买活动等等的分析可以解决很多实际的社会问题。既解决了价值变现的问题，又解决了过于碎片的市场不能沉淀出分析平台的问题。目前Palantir主要用在国家安全、社会安全、网络安全、金融安全、内幕交易、医疗、保险、自然灾难等社会领域。

　　可想而知，这种场景对高度复杂的社会管理能带来多大价值，也就不难理解为什么现在整个圈子都在谈论这个产品。离价值越近，平台的价值就越大。越靠近智能，离价值越近。数据存储、计算、探索、展现的基础打好以后，对数据真正做分析的人工智能再次重生，这次有了个新的名字，深度学习。机器大脑是一个新的分析平台吗? 谷歌的Google brain项目正式曝光，成为Google X的知识部门(knowledge)下的一个项目，接着四亿美金收购 deep mind，然后收购dark blue labs(自然语言认识)，收购vision factory(视觉识别)，重金布局人工智能。于是引发了互联网公司的人工智能军备竞赛，百度大脑、Facebook、亚马逊等都开展相似项目。

　　到底这些人工智能平台能否成为跨行业的通用的分析平台仍然是个问号，似乎更多的是其互联网业务的补充，谷歌首先把机器学习用于其搜索引擎，以便提供更为智能化的准确结果，还有无人驾驶汽车，还有就是类似Siri这样的应答系统。这场军备竞赛似乎对目前企业领域难以有很大的影响。

　　无论如何，能够快速给用户带来价值的分析平台，将是今后的大焦点。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；