京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何驾驭大数据
到 2018年 全球大数据方面的开支将达 1140 亿美元,是 5年 前的 3 倍;到 2020年 全球大数据规模将达 44ZB(泽字节),是 2013年 的 10 倍。下一波大数据浪潮即将来袭,但是并没有多少组织为此做好准备。如果应对措施不当,你可能就不是弄潮的那个,而是被浪尖打翻的那个。如何为驾驭大数据做好准备呢?请看 Crewspark CEO Cameron Sim 的文章。
1140 亿美元。这是 2018年 全球组织在大数据方面的开销,仅仅 5年 的时间就增长了 300%以上。但是这些投入有多少是值得的呢?
过去 10年,我们目睹了大数据管理新方法的广泛应用,如 MapReduce、供大规模存储使用的非模式化数据库,以及用于存储和处理的 Hadoop、Storm 和 Spark 等。但是大数据的使用不仅仅是特定平台或范例的部署而已: 通常这意味着公司对数据的建构和组织进行彻底的重新设计。
但据调查发现,目前还没有多少组织为新的数据平台和能力做好基本准备。只有 35%的组织拥有了 “健壮的数据捕捉、管理、验证及保存流程”,更有 67%“缺乏衡量定义明确的大数据行动成功的标准。” 那些大数据解决方案基本都是被动集成进来的。
但时间可不等人,根据 2014年IDC 的报告,到 2020年,全球的数据总量将达 44ZB,整整是 2013年 的 10 倍。面对着下一波的数据大爆发,那些未做好准备的公司将可能就会有背负运营和技术双重债务的风险,并因数据落后而被淘汰出局。
具体而言,这些风险体现在以下几个方面:
企业丧失透明度
业界将面临大规模的技能短缺问题——很少有 IT 专业人士有经验管理大规模的大数据平台。根据麦肯锡的分析,到 2018年,美国将出现 150 万名有能力做出基于数据决策的经理。为了缩短这一鸿沟,麦肯锡估计企业将需要把数据和分析预算的 50%投入到一线经理的培训上面。但是还没有多少公司意识到这一点。
随着数据需求的扩大,如果对信息管理缺乏深刻理解,对数据扩展性缺乏最佳实践,那么在管理数据驱动的系统时就会遭遇到重大挑战。而糟糕的运营透明度会导致企业很难识别出数据何时不准确和无意义,甚至连关键报表和指标是否正确运行都不知道。理清这些错综复杂并对数据提出正确的问题将成为 IT 人员的必备技能。否则就会缺乏对企业运营的可视性,无法有效做出知情决策并削弱企业的竞争优势。
人工成本飙升
据估计 2014年 时数据科学家 50-80%的工作时间花在了数据集清理和处理上。近期公司往往倾向把数据准备工作的自动化外包给离岸或近岸的数据专家。对 CloudFactory、MobileWorks 及 Samasource 这类微工作平台的需求已经爆发,据估计,到 2018年 这类业务的规模将达到 50 亿美元。
但是外包无法规模满足需求。鉴于未来的数据量将达到 44ZB,数据的这种快速增长会需要成千上万具备长期可行的解决方案的离岸或近岸外包团队。而任何可持续的解决方案都离不开显著的自动化。
通信障碍
现在企业间的交互依靠的是经过组织的数据,但与未来 20年 发生的事情相比,这种组织数据的过程将会显得苍白无力。未来将会出现新的企业数据网络标准以及相应的算法和元数据。未能参与到这一全球数据市场的公司将无法利用市面上销售的这些数据产品。
全球各个领域都在发生这种朝着大规模商业数据共享的演变。比方说,在要求第三方验证其研究的压力之下,像葛兰素史克这样的药企最近都拟定了更广泛共享实验数据的计划。奥巴马总统已经要求技术公司共享潜在黑客威胁的数据。Forrester 最近的一项研究预测,数据服务将成为 2015年 的主流产品。按照这种节奏,10年 后大数据的有效使用不仅会成为市场致胜的关键,而且还是参与市场的先决条件。
这些风险就像一个个大数据的定时炸弹,对你构成严峻挑战。不过如果你采取下面的三个步骤,危险也许就可以解除。
1、不要走一步看一步
为了确保未来的分析能力,企业必须现在就开始投资一个能够快速有效管理新数据集的平台。应该考虑业务未来在数据摄入与联合方面如何运作,如何从传统的系统过渡到端到端的自动化的数据与分析。
其核心是这个平台要能够有目的地、小心地、透明地扩充,而不是光收集数据,但对这些数据使用却没有明确的目的,或者在数据的解析上不做投入。
2、再痛也要重建旧数据应用架构
许多公司过度依赖维护开销很高的旧系统,导致升级或作出战略变革的优先性被贬低。甚至一些大公司也是如此,比方说三星的 SmartHub TV 是跑在云上面的,但是因为顾忌迁移成本,其所有的金融交易仍在本地处理。
其结果就是在许多组织里面数据形成了一个个以部门为单位的烟囱。某些数据,比方说社交媒体方面的信息,甚至还保存在公司以外,这又增加了一层复杂性。要想大数据创新,企业必须以提高跨部门运营透明度为焦点对旧的数据应用进行翻新。
3、模块化、多颗粒度的数据管理
要把裸数据和洞察数据塑造成模块化、组织得当、具备各种颗粒度的实体,这一步做得越深入,越能够有效的利用商业洞察,同时还能在永远变化的大数据形势中保持敏捷的反应力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19