京公网安备 11010802034615号
经营许可证编号:京B2-20210330
发现大数据中难以捉摸的大智慧_数据分析师
进入 2015 年了,你可能已经知道人们立马就会想到“大数据”。怎么会想不到呢?厂商和记者们一直在不停地说它。你也知道他们是怎么宣传的,对吧?大数据将给出所有答案,让公司运行得更高效,帮助公司作出基于数据的明智决策,进而让公司具备强大的竞争优势。
在某些程度上,上面所说的没错,但和其他过度炒作的技术一样,许多公司发现难以部署大数据技术,而且现实情况也和炒作表现得截然不同。他们或许找到了收集和处理数据的有效方法,但用它来作更好的决策则是另一个问题了。这些公司发现,在大数据和大数据理解之间缺失了关键的一环,如果不找到方法来解决这个问题,它们就只能空守一大堆令人困惑的数据,却没有多少收获。
正如一名硅谷资深人士最近告诉我的,尽管从创业公司活动和融资上看,大数据收集和处理最近获得了众多关注,但在预期和结果之间仍然存在着巨大差距。正如此人所指出的:“大数据还未能转化为大知识、大洞见和大智慧。”按照他们的预测,距离这一情况变成现实还有一段路要走。
区分炒作和现实
我们想相信从大数据中获得价值非常简单,只需导入数据,运行程序,就能获得洞见。但事实上,从大数据中获得洞见的过程要复杂得多。《数据预测:大数据战略》(DataDivination: Big Data Strategies) 一书的作者帕姆·贝克 (Pam Baker) 表示,尽管存在数据直接给出答案的例子,但这并非常态。
她解释道:“在很多情况中,数据可以给出很确定的答案。比如,预测性分析能精确地预测某个飞机零件或水系统零件报废的时间,也能告知我们更新新零件的具体时间,以便在旧零件报废之前尽可能地利用它。”
但她补充道:“也有很多时候,数据没法给出确定的答案,但你可以从诸多可能的行动中选择一个,或者选择不采取任何行动。这一切都要取决于你在做的事情。”
贝克的看法是对的,一些数据驱动的决策要微妙得多,也需要一点点人性化。人们能通过开发可靠的指标和强大的算法来起到帮助作用。但他们也必须弄清楚如何最大化利用起数据所透露出的信息来。这些信息有时候很直接,但通常并不如此。
专家鸿沟
我们也愿意相信,大数据会让企业用户能立刻直接访问数据,以便在这个过程之中就能作出最好的决策。不幸的是,现在的工具还没有成熟到这种程度。
为了帮助解决这一问题,我们需要更多数据专家来帮助我们处理数据,并从海量信息中发现答案。投资了大数据公司如 Parstream 的 Kholsa Ventures 投资合伙人 基斯• 拉波斯 (KeithRabois) 表示,公司需要配备数据科学家来进行深度研究,这可不是一般公司能做到的。
拉波斯称,你也许想让数据科学家们来开发应用和算法,从事重大的数据科学项目,但在拥有数据科学家的公司中,他们并不总是有时间来做这些事,部分原因是他们要花时间来做不那么深度的研究,而这样的研究不能充分利用他们的技能。
拉波斯还说道,在最好的情况下,数据科学家已经开发出了工具,能在各方需要答案时在组织内分发分析。我们不想要的情况是,当我们需要答案时,就跑去问数据专家,然后坐等答案。
问题是,即便是最聪明的人开发出最成熟的算法,对于复杂问题,这些算法也并不总能给出最确定的答案。算法根本不可能考虑到所有选项,也不能考虑到极难测量到的特定因素。
给我找个好的中场手
棒球就是个很好的例子,理论上两个各方面都相似的棒球选手,各自的比赛表现可能差别很大。数据专家们会告诉你,他们经过多年研究开发的 Sabermetrics 算法将提供挑选选手的所有信息,帮助你找到适合某个角色的好棒球选手。他们还开发出了诸如 替换胜率 (WinsAbove Replacement) 的算法,FanGraphs 对这一算法的描述是:“如果这名选手受伤,其球队不得不用次级棒球联赛球员或(表现不佳)的选手来替换,这支球队会丢多少分?”他们使用一系列复杂的指标来衡量更换球员导致的胜率差异。
无疑,这些成熟的指标能更精确地帮助计算选手的价值,但它测量不到所有东西,比如在压力下的表现,练习的勤奋程度,是哪种队长以及与队友相处得有多好。这些因素都很重要,也都要难量化得多。
纯统计测量的信徒会告诉你,一切皆可测量。大部分情况的确如此,但我很多时候也看到,理论上各方面都相似的棒球选手,却未能像前任选手一样扮演好某一角色,尽管他们的数据相似度很高。
将这一情况应用到企业中,人力资源专家在一个开放的程序员职位上可能会碰到类似的问题。申请这份工作的两个程序员可能拥有相似的技能,但一个拥有与人打交道的能力,可以和其他员工很好地进行合作,而另一个人的沟通能力很差。这方面可不会在简历上体现出来。即便拥有大量数据,也很难考虑到所有可能的结果,尤其是涉及到人时。
想想医疗诊断的细微差别
好医生都会告诉你,哪怕两个病人症状相同,也可能要根据年龄、体重、其他健康问题以及因素来采取不同的治疗手段。
想想在医疗中使用 IBM Watson 智能分析平台的情形。当我最近对一位朋友谈起,一些医生正使用 Watson 来帮助诊断和作出治疗决策,他生气了。他不想让一台机器来决定自己的治疗手段。这是很正当的担忧,但在我所说的情况中,Watson 并没有给出医生会盲从的答案,而是基于已有迹象、病人信息、症状及当前研究提供一些治疗选项。
正如我指出的,忙碌的医生不可能一边工作一边跟踪自身领域的所有研究。因为相关研究太多了(这是好事)。这也是 Watson 发挥作用的地方。Watson 能够以比人快得多的速度快速过滤最近的研究,但仍然需要医生来理解病人的细微差别,从而确定治疗方向。我将这一过程称为科学中的艺术。知识只能带你到这么远,最终的决定权依然在医生而不是机器手中。
企业很可能会面临类似的不确定结果,必须有人介入,运用自己的知识,在数据的帮助下做出选择。
前进的方向?
有时候机器能发现人需要数年时间才能弄懂的答案和洞见。比如,贝克指出,大数据帮助我们发现了有关癌症等疾病的答案,涉及的因素从未有人类研究员考虑过。“如果大数据没有发现这一信息,我们或许永远也不会发现合适的疗法(或者至少要过很多年)。我的观点是,大数据可以非常精确”,她对我表示道。
而且,她相信机器学习会在不远的将来发展得足够成熟,届时机器或许会为我们作更多决策,因为我们的大脑无法同时处理所有信息。
她说的也许没错,但就现在来说,收集和处理数据的能力已经走在了理解数据含义的前面。正如贝克提到的,预测性分析一直在提高,有时候数据会直接指向答案,但这仍然是个复杂的人机互助过程。即便技术大步向前,人与机器如何在一起协作也依然处于探索中。
除非我们找到平衡点,或者在整个过程得益于机器出现大幅进展之前,我们都要面临大智慧鸿沟,这将需要一些时间和技术进步来填补。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10