京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Bob Violino
编译 | 中国统计网
对于IT来说,夸大其功效的炒作越多,外界对其的误解也会越大,数据分析当然也不例外。数据分析是当今信息技术最热门的领域之一,可以为企业带来显著的业务收益,但这些误解可能将妨碍分析过程的及时、顺利交付,并影响业务用户和最终客户。
随着企业创建或扩展其分析策略,这里有12个他们需要格外注意的关于数据分析的误解。
误区1:数据分析需要大量投资
如今,似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。
有些人认为数据分析本质上是一项代价高昂的工作,因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此,现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构,也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题,就可以轻松的在云上使用分析来解决业务问题。
此外,数据分析通常用于实现三个结果:提高流程效率、实现收入增长和主动进行风险管理,总的来说,数据分析在任何公司的应用中都带来了巨大的成本效益。
误区2:你需要“大数据”才能执行分析
对于许多人来说,大数据和分析的概念是相辅相成的,企业需要在执行分析之前收集大量数据,以便生成业务洞察,改进决策制定等。
当然,大数据分析的优势也很明确,拥有这些资源的公司利用大数据存储作为促进分析工作的一部分,获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。
分析师需要特定的数据,而不是更多的数据。要想更好地支持决策和提高绩效,企业必须更多的考虑业务用户,确定他们需要访问哪些数据,如何呈现数据,而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策,来提高业务表现,所以企业需要以最简单的格式向他们提供这些信息,帮助他们快速定位重要信息。
误区3:分析消除了人类的偏见
自动化系统执行的方式不应该存在偏见,但技术是由人类建立的,因此消除所有偏见几乎是不可能的。
有些人认为分析和机器学习消除了人类的偏见,不幸的是,这并没有实现。算法和分析使用“训练数据”进行调整,并将重现“训练数据”所具有的任何特征,在某些情况下,这会在分析过程中引入良性偏见,但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。
误区4:最好的算法意味着绝对的胜利
事实证明,有了足够的数据,有时算法无关紧要。谷歌的工程师认为,数据有着不合理有效性 ,简单的统计模型,加上极大量的数据,比包含大量特征和总结的“智能优越模型”能输出更优质的结果。
因此,在某些情况下,只需处理更大量的数据就可以获得最佳效果。
误区5:算法是安全的
人们固执地信任统计模型和算法,并且随着分析程序的组织构建,他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型,因此他们必须相信构建它们的“聪明人”。
比如,在过去的50到60年里,我们反复听到“人工智能将在20年内接管人类工作”的言论,现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,让他们解释如何得到答案。这并不是说我们不能依赖于结果,而是说我们需要透明度,这样我们才可以信任和验证分析结果。
误区6:数据科学是一种神秘的“黑色艺术”
近年来,数据科学学科受到了很多关注,有时甚至会与其他学科产生混淆。基本上来说,数据科学涉及了数据查找模式中所有算法的使用。
数据科学似乎很神秘,因为这些算法能够分析比人类能够理解的范围内更多变量和更大的数据集。但是随着近年来计算能力和内存的扩大,我们现在能够快速解决10年前任何技术都无法解决的问题,人们也随之明白,数据科学是统计推断技术的自然演变。但一旦你理解了数学,数据科学就没有了神秘感。
误区7:需要越多的数据科学家,才能做更多的数据科学工作
如今,数据科学家是所有技术专业人员中最紧缺的。但如果他们重新定位他们正在进行的工作,组织机构可能会减少这些专业人员的数量。
许多数据科学家的时间花费在非增值活动上,比如查找数据集,将数据发送到可以处理的地方,以及转换和清理数据等。考虑到聘请数据科学家的困难程度,这些低价值的任务并不是企业想要的。
数据科学家需要专注于特征工程,提取和分析,而不是围着数据打转,这样才能大大提高他们的工作效率和产出。
误区8:分析需要花费很长时间
如今,快速完成工作——无论是将产品或服务推向市场,还是近乎实时地响应客户咨询,对于任何企业来说都是影响核心竞争力的重要因素。
分析听起来似乎需要很长时间才能执行,与实现速度和敏捷性的目标背道而驰,但这仍然是一个误区。归根究底,一切都与人才有关。有了正确的技能组合和敏捷方法论的应用,大型问题也可以在几天或几周内得到回答,而不是几个月。
误区9:技术是最困难的部分
随着当今可用技术的不断增加,选择合适的工具组合进行部署和集成,可以
更好从分析团队获得所需的结果,
然而,真正困难的部分是“整合组织结构和运营模式,将人员、流程、技术视角所需的全部内容整合在一起。假如你认为只有技术才能解决任何商业问题,那么在此认知之上建立的数据架构,最终会将企业带入“沼泽地”中,或者是产出任何人都难以理解的信息。
技术无法解决分析问题,正确的流程是:先确定一个业务问题,然后问,“我需要什么数据来解决这个问题?”这将帮有效帮助您识别企业内数据的差距。
误区10:数据分析应该是一个单独的部门
在一些组织中,数据分析被划入一个单独的部门,而另一些组织则将数据分析深深地融入了跨职能团队。
然而事实证明,以所有业务领域的数据爆炸和变化发生的速度,以单独部门存在的数据分析开始不起作用了。另一方面,随着企业变得更加以客户为中心,应该让数据分析专家成为业务部门的核心,而不是将其独立于作为业务支持的部门。
当今企业面临的许多复杂问题都存在于业务部门内,而且这些问题的许多解决方案都隐藏在数据中。数据科学家和技术专家,与这些业务部门密切合作,使用大型数据集和人工智能,将成为孵化下一代产品、服务和客户体验的关键。
误区11:分析工作只适用于博士
很高兴我们在分析团队中拥有了许多受过良好教育的人,但这并不是分析成功的必要条件。
企业倾向于认为,如果数据分析师没有博士学位,他们将无法进行最佳的分析。然而现代分析需要各种技能——建立具有不同技能的“分离舱”,包括那些精通新兴技术和开源软件的人、大数据架构师、数据工程师、数据科学家、数据可视化专家等等,才是最重要的。
误区12:人工智能会摧毁工作并破坏经济
历史上新技术的引入扰乱了许多工作和行业,人们同样担心人工智能会消除人们执行某些任务的必要。
虽然AI解决方案比解决某些问题的人要好得多,比如AI可以更快地阅读,记住更多,并且比任何人都能更好地进行复杂数学关系的计算。但是,AI也无法应对真正全新的变化,这是人类擅长的地方。
可以肯定的是,某些工作已经因AI的兴起而消失或减少,与此同时这种趋势还在增长。尽管如此,我们理解和解决“完全不可预见的情况”的优势不会被任何目前的AI技术所取代。在可预见的未来,最有效的方法是通过AI系统来增强人类的能力,取代人工的“繁重”。虽然人工智能正导致许多工作岗位发生变化,但是人们会将成为这一商业生态系统的重要组成部分。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24