如何驾驭大数据-CDA数据分析师官网

热线电话：13121318867

如何驾驭大数据

2015-10-27

如何驾驭大数据

到 2018年全球大数据方面的开支将达 1140 亿美元，是 5年前的 3 倍；到 2020年全球大数据规模将达 44ZB（泽字节），是 2013年的 10 倍。下一波大数据浪潮即将来袭，但是并没有多少组织为此做好准备。如果应对措施不当，你可能就不是弄潮的那个，而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢？请看 Crewspark CEO Cameron Sim 的文章。

　　1140 亿美元。这是 2018年全球组织在大数据方面的开销，仅仅 5年的时间就增长了 300%以上。但是这些投入有多少是值得的呢？

　　过去 10年，我们目睹了大数据管理新方法的广泛应用，如 MapReduce、供大规模存储使用的非模式化数据库，以及用于存储和处理的 Hadoop、Storm 和 Spark 等。但是大数据的使用不仅仅是特定平台或范例的部署而已：通常这意味着公司对数据的建构和组织进行彻底的重新设计。

　　但据调查发现，目前还没有多少组织为新的数据平台和能力做好基本准备。只有 35%的组织拥有了 “健壮的数据捕捉、管理、验证及保存流程”，更有 67%“缺乏衡量定义明确的大数据行动成功的标准。” 那些大数据解决方案基本都是被动集成进来的。

　　但时间可不等人，根据 2014年IDC 的报告，到 2020年，全球的数据总量将达 44ZB，整整是 2013年的 10 倍。面对着下一波的数据大爆发，那些未做好准备的公司将可能就会有背负运营和技术双重债务的风险，并因数据落后而被淘汰出局。

　　具体而言，这些风险体现在以下几个方面：

　　企业丧失透明度

　　业界将面临大规模的技能短缺问题——很少有 IT 专业人士有经验管理大规模的大数据平台。根据麦肯锡的分析，到 2018年，美国将出现 150 万名有能力做出基于数据决策的经理。为了缩短这一鸿沟，麦肯锡估计企业将需要把数据和分析预算的 50%投入到一线经理的培训上面。但是还没有多少公司意识到这一点。

　　随着数据需求的扩大，如果对信息管理缺乏深刻理解，对数据扩展性缺乏最佳实践，那么在管理数据驱动的系统时就会遭遇到重大挑战。而糟糕的运营透明度会导致企业很难识别出数据何时不准确和无意义，甚至连关键报表和指标是否正确运行都不知道。理清这些错综复杂并对数据提出正确的问题将成为 IT 人员的必备技能。否则就会缺乏对企业运营的可视性，无法有效做出知情决策并削弱企业的竞争优势。

　　人工成本飙升

　　据估计 2014年时数据科学家 50-80%的工作时间花在了数据集清理和处理上。近期公司往往倾向把数据准备工作的自动化外包给离岸或近岸的数据专家。对 CloudFactory、MobileWorks 及 Samasource 这类微工作平台的需求已经爆发，据估计，到 2018年这类业务的规模将达到 50 亿美元。

　　但是外包无法规模满足需求。鉴于未来的数据量将达到 44ZB，数据的这种快速增长会需要成千上万具备长期可行的解决方案的离岸或近岸外包团队。而任何可持续的解决方案都离不开显著的自动化。

　　通信障碍

　　现在企业间的交互依靠的是经过组织的数据，但与未来 20年发生的事情相比，这种组织数据的过程将会显得苍白无力。未来将会出现新的企业数据网络标准以及相应的算法和元数据。未能参与到这一全球数据市场的公司将无法利用市面上销售的这些数据产品。

　　全球各个领域都在发生这种朝着大规模商业数据共享的演变。比方说，在要求第三方验证其研究的压力之下，像葛兰素史克这样的药企最近都拟定了更广泛共享实验数据的计划。奥巴马总统已经要求技术公司共享潜在黑客威胁的数据。Forrester 最近的一项研究预测，数据服务将成为 2015年的主流产品。按照这种节奏，10年后大数据的有效使用不仅会成为市场致胜的关键，而且还是参与市场的先决条件。

　　这些风险就像一个个大数据的定时炸弹，对你构成严峻挑战。不过如果你采取下面的三个步骤，危险也许就可以解除。

　　1、不要走一步看一步

　　为了确保未来的分析能力，企业必须现在就开始投资一个能够快速有效管理新数据集的平台。应该考虑业务未来在数据摄入与联合方面如何运作，如何从传统的系统过渡到端到端的自动化的数据与分析。

　　其核心是这个平台要能够有目的地、小心地、透明地扩充，而不是光收集数据，但对这些数据使用却没有明确的目的，或者在数据的解析上不做投入。

　　2、再痛也要重建旧数据应用架构

　　许多公司过度依赖维护开销很高的旧系统，导致升级或作出战略变革的优先性被贬低。甚至一些大公司也是如此，比方说三星的 SmartHub TV 是跑在云上面的，但是因为顾忌迁移成本，其所有的金融交易仍在本地处理。

　　其结果就是在许多组织里面数据形成了一个个以部门为单位的烟囱。某些数据，比方说社交媒体方面的信息，甚至还保存在公司以外，这又增加了一层复杂性。要想大数据创新，企业必须以提高跨部门运营透明度为焦点对旧的数据应用进行翻新。

　　3、模块化、多颗粒度的数据管理

　　要把裸数据和洞察数据塑造成模块化、组织得当、具备各种颗粒度的实体，这一步做得越深入，越能够有效的利用商业洞察，同时还能在永远变化的大数据形势中保持敏捷的反应力。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；