数据科学的七种常见错误丨转行,你适合数据科学吗
商业领域的数据科学家其实和侦探有着异曲同工之处,就是要去探索未知。不过在这过程中可能一不小心就会坠入“陷阱”,所以这就需要去了解和避免这些“陷阱”。
爱尔兰小说家James Joyce 提到过 “错误是探索的入口”,这句话在大部分情况下这是无可厚非的。
对于数据科学家而言,犯错可以帮他们发现新的数据趋势和找到更多数据模式。话虽如此,对于数据科学家而言,允许的误差范围往往非常小。数据科学家是通过大量考察才被高薪聘请的,而企业也担不起由于忽略失败案例和重复犯错所产生的严重后果。因此,这些错误有可能会毁掉一个数据科学家的职业生涯。因此对数据科学家来说,追踪所有数据实验、从错误中吸取经验教训、以及避免在未来的项目中出错是至关重要的。
夏洛克·福尔摩斯以下的这句话很好的诠释了数据科学家在商业领域中扮演的角色:
“我是夏洛克·福尔摩斯,去了解别人不知道的事是我的使命”
而对于企业而言,如果想在商业中保持竞争力,并不仅仅要依靠大数据分析。如果不事先评估数据质量以及他们希望达到的目标和利润,就很难判断出哪个数据分析项目会带来盈利。出现第一次失误是可以接受的,但反复地在同一个地方摔倒,就会造成商业运营中的重大损失。
应用Python语言去学习数据科学,并成为企业数据科学家
以下来分享该如何避免常见的数据科学错误:
错误 1:因果关系和相关性的概念混淆
对于任何数据科学家而言,把相关性和因果性混淆都会造成损失。《魔鬼经济学》里提到了伊利诺伊州的一个案例,由于分析显示每个家庭的书籍数量和学生考试分数有直接联系,导致了伊利诺伊州给每个学生都发了书。而进一步的研究显示,家里有书的学生可能从未翻阅过这些书,但他们的学术水平表现的更为优秀。因为那些经常买书的父母更能提供给孩子更加好的学习氛围,而这个观点则是在原来的假设上做了修正。
大量数据科学家在处理大数据时会假设相关性,直接映射因果关系。虽然用数据来衡量两个变量之间的相关性没错,但是总用“起因和影响”来类推,可能会导致错误的预测和低效的决定。为了利用大数据去呈现最好的结果,数据科学家需要去弄清相关性和因果本质区别。相关性是指X与Y通常会被放在一起观察,而因果关系是指X引起了Y。这在数据科学中是完全两种不同的概念,但这些差别经常被数据科学家忽视。在不知道起因的情况下,仅根据相关性所作出的决定的成效,完全取决于企业的数据类型和想解决的问题。
每个数据科学家必须明白:“在数据科学中,相关性不代表因果关系”,如果两个事物互相关联,这不代表一个是由另一个引起的。
错误 2:没有选择适合的可视化工具
大部分数据科学家都致力于学习分析技术,但忽略了用可视化路径去更好地展现和分析数据的方式。如果数据科学家没有选择合适的可视化工具去研发模型、监控未知数据或展现结果,那么再好的机器学习模型,价值也会因此被削弱。
另外一个常见的误区就是,很多数据科学家选择可视化图表类型不是基于数据集的特征,而是他们自身的审美爱好。为了避免这种情况,第一步就是要定下可视化主要目的。
仅仅一个优秀的机器学习模型并不能立刻分享和传达重要的数据信息。数据科学家需要结合有效的可视化工具来解释数据规律以应用到实际工作中。常言道“一图胜千言”,数据科学家不仅要熟练运用可视化工具,并且还要了解其中的原理,用更直观和易于理解的方式,对数据分析的结果进行分享和沟通。
因此,解决任何数据科学问题的关键一步就是深入了解数据,通过丰富直观的可视化,了解分析的基础和搭建相应的模型。
错误 3:没有选择合适的模型验证频率
有部分数据科学家认为,建立出优秀的机器学习模型之后就胜券在握了,但实际上,确保模型能够维持相应的预测能力也相当重要。所以这需要数据科学家在一定时间内,反复验证自己的模型。而这一点往往很容易被忽略。他们习惯性地认为,如果预测模型和观测数据相吻合,该预测模型就是理想的。
然而,已建立的模型的预测效果,往往会随模型关系不断变化而改变。因此,为了避免这种情况,最好的解决方法是:每个小时都用新数据对模型进行评分,或者基于模型中的关系变化快慢逐日逐月评分。
由于不同因素影响,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。实际工作中,数据科学家有时需要重建数据模型。而且通过多个数据模型来解释变量的分布要远优于依靠单个模型。
同时,为了保留模型的预测效果和有效性,选择迭代周期是非常重要的,如果无法做这点,那最后结果也会差强人意。
错误 4:缺少对问题或计划的分析
数据科学协会主席Michael Walker提出:“在数据科学中,最极致的方法之一就是设计实验、根据科学的标准去提出好的问题、收集合适的数据集、收集并解释你所得到的结果。”
数据科学是一个结构化的过程,以明确的目标和问题为始,随后提出假设,最终找到答案。然而,数据科学家有时会直接分析数据,而没有事先考虑,“我需要去解决一个什么样的问题?”对于任何数据科学家来说,设定一个项目目标和模型目标都是必不可少的。如果不知道自己想要解决什么问题,那最后结果往往也是不尽如意。
很多数据科学项目最终是为了回答“是什么”的问题,因为数据科学家无法时刻攒问题在手,所以也无法根据这种理想的路径进行数据分析。然而,数据科学应该是利用大数据去回答“为什么”的问题。数据科学家应该采用新的方式去整合已知的数据集,去探讨一个未曾有过答案的问题。为了改善现状,数据科学家应该关注在:“如何获得正确的分析结果。”这可以通过明确的实验设计,变量和数据准确性,并且清晰明白他们想在数据中获取什么信息。这也将简化以往通过满足假设的统计方法来回答商业问题的过程。就像Voltaire说的那样,“判断一个人,是通过他提出的问题,而不是他所给的答案。”这对于任何企业来说,首先明确好研究问题对于达到研究目标是至关重要的。
错误5:仅仅关注于数据
博思艾伦咨询公司的首席数据科学家Kirk Borne曾说过,“人们往往忽略了关于数据使用、数据保护、还有统计方面的伦理问题。再者,人们忽略了如果用足够长的时间去处理数据,便可以从中挖掘很多信息。如果能收集大量数据,便会发现其中的关联性。现在人们认为如果他们拥有大数据,他们会相信他们所看到的任何事情。”
数据科学家经常会对来自多个数据源的数据感到兴奋,然后在没有考虑加强商业意识的情况下,开始创建图表和可视化处理来做分析报告。这种行为能把任何企业推向危险边缘。数据科学家通常赋予数据太多决策权力,但他们不够重视培养自己的商业意识,不够了解如何才能使企业受益。数据科学家不仅仅要只让数据说话,而且还要善用自己的智慧和商业意识。数据是可以影响项目的决策,但绝不是判定决定权的最终因素。企业可以聘请那些能把各领域知识和专业技术相结合的数据科学家,这也是为了避免此类错误的解决方案。
错误 6:忽略可能性
有时候,数据科学家往往会忽略了方案的可能性,更容易导致失败的决策。数据科学家常常犯一些主观性错误,比如他们认为,企业采取了X操作就一定会实现Y目标。然而,某些特定问题是没有唯一答案的,因此数据科学家要理解,从不同可能性中所做的选择。某些特定问题都存在一个以上的可能性,而其中每种都有一定程度的不确定性。情景规划和概率理论是数据科学两个不可忽视的基本核心,它们可以加大决策正确性的概率。
错误 7:在一个错误的测量总体上建立模型
如果某个项目的目标是建立一个影响客户选择因素的模型,那么,仅仅考虑高影响力客户行为的数据并不完善。该模型还需要考虑到那些影响虽然不大,但却具有潜在影响力的客户的行为数据。低估任何一组的预测能力都可能导致模型歪斜或者一些重要变量被弱化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10