
“大数据”还不等于“大智慧”_数据分析师
技术开发商和媒体早早地为我们描绘了一个即将来临的“大数据时代”。“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮你做出最明智的决策,使你的公司所向披靡。简直不要太棒!但是在这里提醒各位,正如所有的高科技宣传一样,“大数据”也不可避免地被炒作夸大。于是,你还相信未来吗?
近几年以来,“大数据”已经传得沸沸扬扬。技术开发商和媒体记者铺天盖地式的宣传,你怎么可能不知道“大数据”?即使不知道也总会听说过。让我们来看看他们是怎么大力宣传所谓的“大数据”:“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮助你了解数据,做出最明智的决策,使你的公司时刻都充满了竞争优势。
多么具有诱惑力的宣传!当然我们不能百分之百地说报道违背了事实。只是人们对于高科技的宣传总是过于乐观超前。事实上,很多公司都发现以目前的条件实现“大数据”困难重重,理想很丰满,现实却很骨感。的确,在数据的收集和处理方面,可能具有可观的优势。但真正的使用这些数据、乃至借助这些制定更优化的决策则完全又是另一回事。那么问题出在哪里呢?多数公司表示在“大数据”和对大数据的“大理解”之间,缺少了某个重要的联系。如果这个问题得不到解决,那么人们只是空有一堆看似有用的数据,却难以从中挖掘出有用的价值。
正如硅谷的一名资深业内人士最近透露,尽管从近日创业公司的活动和融资情况来看,大数据的数据采集和处理似乎受到广泛关注,但是现实和预期之间的巨大差距依然无法视而不见。他说,“大数据还没有真正转化为大认识、大洞见和大智慧。”以他们的预测,我们离真正的“大数据”时代还有很长的一段路要走。
炒作和现实,不可混为一谈
我们希望从大数据中获取价值的方法越简单越好,比如导入数据,运行程序,最后得出富有远见的结论。你觉得这可能吗?如果智慧那么容易获得,那人人都可以是乔布斯了。事实上,从大数据中获得有价值的信息远比“导入、运行、输出三部曲”要复杂得多。“《数据预测:大数据战略》(Data Divination:Big Data Strategies)”一书的作者帕姆·贝克(Pam Baker)说,数据直接给出答案的实例确实存在,但只存在于特定的情况下,鲜有发生。我们不能寄希望于例外,我们需要的是普遍规律。
“也许,有人会辩解说,我们可以举出很多例子,在这些例子中,数据往往可以给出非常明确的答案。比如预测分析学可以精确地预测出飞机或供水系统中的某个零部件的报废时间,还能告诉我们替换零部件的最佳时间,以便于在旧部件报废之前最大化地利用其剩余价值。”贝克解释道。
“但是,”她马上又强调,“更多的情况下,我们是没有办法直接获得想要的答案的。你可以从诸多可能的行为中选择一个或者什么都不做,具体情况具体分析,这才是我们所面临的真实情况。”
贝克一语中的。一些基于数据的决策的确是这样。数据不是“冰冷的数字”,它们是“多愁善感的精灵”,正如布鲁斯·斯普林斯汀在一首歌中唱道,它们需要“一点点的人情味”。人们可以通过开发良好的指标和强大的算法来挖掘数据。但这远远不够,人们必须通过自己的认识和见解才能真正地了解数据的“内心世界”,才能充分利用数据背后的价值。有的数据很“直白”,有的却很“委婉”,我们不能一概而论。
算法的局限性
进一步说,我们更希望大数据可以让企业用户直接即时地访问数据,这样他们就可以随时随地、有如神助般的做出每一个最佳决策。愿望是美好的,只不过以我们当前的技术条件来看,我们还达不到这么复杂神奇的水平。
要做到这一点,首先我们需要足够多的数据专家来帮助我们分析处理数据,从大量的信息中提取出有效信息。同Kholsa Ventures一道投资了数家大数据技术公司(例如Parstream)的投资者基斯·拉波斯表示,公司非常需要一个数据专家来指导处理复杂数据分析,只不过大多数的企业用户很难做到这一点。
拉波斯说,你会需要这些数据专家来开发应用和算法,承担大量的数据研究任务。但是在已经拥有这些数据专家的公司里,这些数据专家也并非一直在从事这些高级复杂的数据工作,大概部分原因是由于他们需要花时间去处理一些比较简单的数据分析。数据专家的才能在这里大大地被埋没了。
在最理想的情况下,拉波斯继续说道,数据专家开发出一套工具,当有一方需要答案时可以迅速地在整个组织里寻找分析的答案。在现今这个时代,速度就是一切。我们最不希望看到发生的事情就是,当我们急切地需要答案时,我们只能寄希望于数据专家,然后被动地等待。
出发点固然是好的,但问题在于即使是最聪明的人开发出了最复杂的算法,对于复杂的问题仍然没有最直接的答案。无论多么复杂的算法,也无法做到全盘考虑,对于难以衡量的特定因素更加束手无策。如果某个算法可以全部做到这些,那就无异于人类的大脑,届时麻烦可能更大了。
我需要一个优秀的“中场手”
棒球比赛可以帮助我们更好地理解算法的局限性——水平相当的两个选手,他们的表现可以相去甚远。数据极客们会告诉你,经过多年的研究开发,他们创造了Sabermetrics算法,可以为你提供挑选最佳球手所需要的所有决策信息。他们还开发了一整个系列的数据统计算法,比如“替换胜率(Wins Above Replacement)”。FanGraphs对“替换胜率”的解释如下:“如果某一个队员负伤不能上场,他们的球队不得不找一个次级棒球联赛球队队员或者‘稍逊一筹’的板凳球员做替补时,损失有多少?”对此,他们采用了一系列标准来衡量计算两者之间的胜率差别。
这种复杂的算法若是仅仅用来准确地衡量球员的价值,那倒是没什么大问题。但是有些问题,比如某个球员在压力下的表现如何?他是否刻苦练习?他是哪一种类型的队长?又或者他跟队员的相处配合得如何?所有这些问题该怎么用算法去计算?难道这些问题就不重要了吗?如果要纳入算法的考虑范围,又要怎么去量化这些因素呢?
纯数据分析的追随者会告诉你一切都可以量化,也许他们说的没错。但是我也的确看到过很多水平相当的选手,在几乎相同的条件下,他们的表现是有差距的,尽管从数据分析上来看他们的表现应该很接近。
在企业中,人力资源专家在招聘自由程序设计师时也会遇到类似棒球选手的情况。你可能会有两个专业技能水平相当的应聘者前来应聘该职位,但其中一人的人际关系技能更胜一筹,能够很好地与同事合作,而另一个应聘者则难以相处和合作,显然仅从简历中很难看出这些“软实力”。即使有大量的数据支持,也很难顾及到方方面面可能产生的结果,尤其又涉及到人的时候。
差之毫厘谬之千里
任何一个负责任的医生都会严谨地告诉你,即使两个病人的症状非常相似,采取的治疗手段也不会相同,仍需要严格按照个体的差异性来决定,年龄、体重、其他的健康问题和特殊因素等等,都会影响最终的治疗效果。
就拿医疗过程中使用的智能分析平台IBM Watson来说。当我向一个朋友说起最近有的医生开始采用Watson辅助诊断和制定疗程时,他立刻炸毛了。他坚决表示自己的健康问题和治疗手段不需要一台机器来决定。他的担心完全在理,但是在Watson的例子中,这台机器并没有直接给医生提供可以盲从的答案,只是根据已有的迹象、患者信息、病症再结合当前对此病症的科学研究结果,给出治疗的参考方案而已。
正如我之前描述的数据专家的情况一样,医生们同样也很忙碌,他们不可能一边给患者看病一边还要熟知自己领域的所有最新进展。相关的研究实在太多了(当然这是一件好事)。所以他们需要Watson的辅助。Watson能够快速地过滤目前的研究,但是仍然需要医生根据实际情况来决定最终的治疗方向。我更愿意把这个过程称为科学中的艺术。知识给我们带来了无限的可能性,但最终的决定权仍在于医生而不是机器。
企业同样也会面临类似不确定性,这时候就需要人的介入,运用他们的知识,借助数据的力量,为不确定性做出决策。
未来我们能走多远?
很多时候机器可以给出人们需要耗费数年时间才能得出的答案和远见。贝克指出,比如大数据已经在帮助我们更深刻地了解疾病,尤其是癌症,有很多方面都是人类研究人员从未涉及过的。“没有大数据给我们提供足够的数据信息,我们永远都不会找到最佳治疗方案(至少最近几年毫无希望)。在这里,我想说的是,大数据‘的确’可以十分精准。”
而且她还相信机器的学习能力在不远的将来一定会达到一个足够成熟的阶段。届时机器或许可以替我们做更多的决策,因为人类的大脑能力毕竟有限,无法一下子处理所有的可用信息。
我不能说她的预想是错误的,然而就目前看来,采集和处理数据的能力远远超过了对这些数据的理解能力。贝克也谈到,预测分析一直在前进发展,有时候数据可以直接给出答案,但在更多的情况下,这仍然是一个复杂的人机交互过程。即使技术在不断向前发展,这两者之间如何才能完美的合作仍是一个难题。
除非我们能从中找到一个折中的办法或者机器的技术能有大幅度的提升,否则我们仍将面临一个智慧的鸿沟,需要时间和技术的进步来慢慢填补。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18