
破除十二个数据分析的误区
在IT界,炒作越大,误解就越大,数据分析也不例外。分析是当今信息技术最热门的方面之一,它可以带来显著的业务收益,但是误解可能会妨碍分析功能的顺利和及时的交付,而这些功能这可能会使业务用户和最终客户受益。
随着组织创建或扩展其分析策略,下面来看看十几个他们可能要避免的误区。
误区一:数据分析需要大量投资
现在看来,每一项技术努力都必须通过一个确保经济稳健性的过滤器。IT和业务经理们提出启动项目或部署新工具时,首先会提出的问题之一是“这要花费多少钱”?
有些人认为数据分析本质上是一项昂贵的工作,因此它仅限于预算较大或内部资源较多的组织。但并非所有的数据分析工作都需要大量的投资,移动和在线房地产服务提供商Trulia的工程副总裁Deep Varma这样说道。
Varma说:“现在市场上有这么多的开源以及其它工具可以帮助你开始展示数据分析的价值。你需要对内部数据存储以及你要解决的问题有一个很好的理解。在尝试用分析解决业务问题时,云使之变得更简单。”
现代分析“是基于云系统和大数据架构的,从定义上来说它们比传统的数据仓库系统要便宜得多”,安永咨询公司的全球分析领导者Beatriz SanzSaiz补充道。
Saiz说:“另外,通常用数据和分析实现三个结果:提高流程效率、收入增长和主动风险管理。总而言之,数据和分析的应用为所有公司带来重大的成本收益。”
误区二:你需要大数据来执行分析
对于很多人来说,大数据和分析的概念是齐头并进的。这个想法是,组织需要在执行分析之前收集大量数据,以便产生业务洞察,改进决策制定等。
当然,大数据分析的好处已为大家所接受,拥有这些资源的公司确实可以通过利用其数据存储作为分析工作的一部分来获得显著的竞争优势。但是,大数据是分析必不可少的想法是不正确的。
人力资源公司Allegis Global Solutions的商业智能执行总监Tim Johnson说:“人们经常试图采集尽可能多的数据;他们一听到‘大数据’就兴奋不已。这个误解就是数据越多越好,机器会分门别类。”
但是,与其说分析师需要更多的数据,不如说他们需要具体的数据。Johnson说:“95%的用户正在寻找与他们的工作相关的信息,并支持决策和提高性能。企业与其关注更多的数据,不如多为业务用户着想,不仅要确定他们需要访问哪些数据,而且还要确定如何展示数据。
Johnson说:“提供对各种信息和多种格式的访问可能是巨大的挑战,并且实际上阻碍了采用。相反,找出对它们来说很重要的事情,以及如何以最简单的形式向他们展示这些信息。”
误区三:分析可以消除人为偏差
自动化系统执行的方式是不应该带有偏差的。但技术是由人类建立的,所以消除所有的偏差几乎是不可能的。有人认为分析和机器学习可以消除人为偏差。
全球技术咨询公司ThoughtWorks的技术负责人Mike Mason说:“不幸的是,这根本不是真的。算法和分析使用‘训练数据’进行调整,并将重现训练数据的任何特征。”
Mason说在某些情况下,这会给分析结果带来偏见;在其它情况下,结果可能会更糟,他说:“‘仅仅因为算法这么说’并不意味着答案是公平的或有用的。”
误区四:最好的算法总是能赢
事实上,有了足够的数据,“有时候算法并不重要,”Mason如是说。他在IEEE的一篇文章中引用了“数据的不合理有效性”,谷歌的工程师认为,简单的统计模型,加上大量的数据,比包含很多特性和摘要的“智能优越”模型取得更好的结果。
Mason说:“在某些情况下,仅仅处理大量的数据就能取得最好的结果。”
误区五:算法能确保安全
Johnson说,人们固有的信任统计模型和算法在很大程度上是随着组织建立他们的分析程序而逐渐依赖复杂的模型来支持决策。
Johnson说:“因为人们不了解模型、算法和其它先进的数据科学实践,所以他们信任它们。用户不觉得自己具备可以挑战模型的知识,相反,他们必须相信建造它们的“聪明人”。
Johnson说:“在过去的50到60年里,我们听说过人工智能将在20年内接管人类的工作,而且我们将继续听到人们这样说。在我们能够公然地相信机器学习和结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,以解释如何得出答案。我们不是不能依赖结果,而是需要透明度,以便我们可以信任和验证分析。”
误区六:数据科学是一种神秘的“魔法”
数据科学近年来受到了很多关注,关于它究竟是什么有时会产生混淆。它主要涉及使用算法来查找数据中的模式。
数据存储公司Micron的首席技术官 Trevor Schulze说:“数据科学似乎很神秘,因为这些算法能够分析更多人脑更所无法理解的变量和数据集。”
Schulze说:“近年来,随着计算能力和内存的增大,我们现在能够快速解决十年前用任何技术解决不了的问题。数据科学是统计推断技术的自然演变,数十年来已经得到很好的理解。一旦你理解了数学,数据科学就没有那么神秘了。”
误区七:为了做更多的数据科学,你需要更多的数据科学家
数据科学家是当今所有技术专业人员中最紧俏的。如果他们把精力转移到应该做的事情上,也许组织就不需要这么多这样的专业人士。
Mason说:“很多数据科学家的时间花在了非增值活动上,比如寻找数据集、把数据放到可以处理它们的地方、以及转换和清理数据”。鉴于聘请数据科学家是这么地困难,那些低价值的任务并不是你想要的。
Mason说:“优步的米开朗琪罗平台(Michelangelo platform)使数据科学家能够专注于特性工程、提取和分析,而不是将数据搬来搬去,因此使他们可以大大提高生产力。”
误区八:分析太耗时
现在快速完成工作——无论是将产品或服务推向市场,还是近乎实时地响应客户询问——对于公司来说都是一个巨大的竞争考虑因素。分析听起来像是需要很长时间来执行的事情,与达到速度和灵活性的目标背道而驰。
Saiz说:“这种类型的项目耗时太长,而且相当复杂,这个迷思依然存在。在一天结束的时候,这都是关于人才的。通过恰当的技能组合和敏捷方法的应用,大问题可以在几天或几周内得到解决,而不是几个月。”
误区九:技术是最难的部分
咨询公司ISG的IT采购和数字咨询服务总监James Burke说,随着当今可用的技术的数量不断增加,选择合适的工具组合来部署和集成以从分析团队获得预期的结果并非易事。
但是,Burke说真正困难的部分是“把组织结构和运营模式放在一起,把人员、流程和技术视角所需要的所有东西放在一起。另外,你如何在现有的组织内部或者‘附近’这样做,这对组织来说似乎是最难的。”
不要以为分析工具会完成所有的工作。咨询公司West Monroe的技术实践高级总监Greg Layok说:“技术本身决不会解决任何业务问题。在急于创建数据湖的过程中,组织最终却陷入了沼泽,或者是一个难以让任何人弄明白的信息困境。”
Layok说技术并不解决分析问题。他说:“首先,发现一个业务问题,然后问,'我需要哪些数据来解决这个问题?'这将帮助你发现组织内的数据缺口。”
误区十:数据分析应该是一个独立的部门
在一些组织中,数据分析本身是作为一个部门运作的,而在另一些组织中则深深嵌入到一个跨职能团队中,咨询和数据收集公司Delvinia的总裁兼首席创新官Steven Mast这样说道。
Mast说:“但是,随着所有业务领域的数据大量涌现和变革发生的速度,部门模式不起作用了。随着企业变得更加以客户为中心,数据驱动的分析专家应该成为业务部门的核心,而不是作为一个呼叫支持的部门来运行。”
Mast说当今很多组织面临的复杂问题都在业务部门内部,而且这些问题的很多解决方案都隐藏在数据中。他说:“数据科学家和专家与这些业务部门密切合作,使用大量数据集和人工智能将是培育下一代产品,服务和客户体验的关键。”
误区十一:分析是博士干的事情
在分析团队中有很多受过良好教育的人是很棒的,但这不是成功的要求。
Saiz说:“公司往往认为,没有博士学位,他们将无法进行最佳的分析。现代分析需要一系列技能——那些在新兴技术和开源软件方面精明的人。建立各怀绝技的职能,包括大数据架构师、数据工程师、数据科学家、数据可视化专家等等,才是最重要的。”
误区十二:人工智能会破坏就业和经济
历史上新技术的引入已经颠覆了很多工作和行业,人们担心人工智能会消除人们执行某些任务的需要。
Schulze说:“人工智能解决方案比人们在解决某些问题方面要好得多。“人工智能可以读得更快,记住更多,计算复杂的数学关系比任何人都好。然而,人工智能不能处理真正新颖的情况,而这是人类擅长的地方。”
诚然,Schulze说,某些工作已经消失或者因人工智能的增长而减少,其它的工作也随之而来。他说:“尽管如此,我们理解和解决完全无法预料的环境的能力也不会被目前所知的人工智能技术所取代。在可预见的未来,最有效的人工智能方法将是通过人工智能系统来增强人的能力,这些人工智能系统执行一些‘繁重的工作’,在这些工作中算法的表现优于人。尽管很多工作会因人工智能而发生变革,但人仍将是这个商业生态系统的重要组成部分。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15