京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作为一个在数据科学领域工作了十多年的人,看到人们预言该领域将在10年内如何灭绝是令人沮丧的。给出的典型原因是emergingAutoMLtools将如何消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它阻止了初学者足够认真地对待数据科学,从而在它方面出类拔萃。坦率地说,对于一个需求只会进一步增加的领域,看到这样的预言是对数据科学界的伤害!
为什么任何一个理智的人会投入有限的时间和精力去学习即将灭绝的东西?
给你点东西。如果有一个领域你最有可能真正退休,那就是数据科学。我将给出数据科学不会很快灭绝的四个关键原因。然后我也会给你我的建议,以确保你在10年后保持在数据科学的正确一边。
数据科学不会灭绝,但如果你不跟上它的步伐,你的技能可能会灭绝。我们潜水吧。
让我们从科学开始。我不必让你相信科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后我们创建一个模型(传统上称为理论),可以总结和解释这些观察。我们创建这些模型来帮助我们解决问题。
数据科学的本质也正是如此。收集数据,通过创建模型从中学习,然后使用那些模型解决问题。多年来,不同的学科已经开发和完善了几个工具来实现这一点。根据该领域的重点,使用不同的名称来描述这组工具和过程。术语是Data Science。
然而,以前的时代与现在的不同之处在于数据量和我们可用的计算能力。当我们只有几个数据点和几个维度时,手工将它们放在纸上并拟合一条直线(回归)或识别模式是可能的。现在,我们可以廉价地从多个来源(多个特性)收集大量数据。当你有大量的数据点和维度时,拟合一条直线(或集群)是不可能的,也是不可行的。
如果收集数据并开发模型来解释它的做法已经存在了几个世纪,为什么你认为它会在未来10年内灭绝?
如果有什么不同的话,我们将收集更多种类的数据,我们将需要创造性地将它们结合起来解决问题的新方法。
在“自动机器学习”的保护伞下的几种工具正在获得吸引力,其中一些可能会导致数据科学的民主化。但是,大多数这样的工具将有助于加快对cleaned数据输入的不同算法的测试和实现。
但是向模型中获取干净数据的能力一点也不简单。
事实上,一些与数据科学相关的调查已经指出,任何数据科学家在收集和清理数据上花费的时间都是不成比例的。例如,Anaconda的年度调查(数据科学家使用的领先分布之一)指出,数据科学家将66%的时间用于数据加载、清理和可视化,只有23%的时间用于模型训练、选择和评分。我在这个领域工作了十多年的个人经历也是类似的。
学习算法如何在底层工作并理解它们的细微差别一点也不简单,许多在线课程花时间解释这些都是正确的。然而,这种对算法的关注只会造成一种错误的错觉,好像数据科学就是关于模型的。许多有经验的实践者开始看到以数据清理为代价对模型的过度强调。Andrew Ng(该领域的领先专家)一直鼓励数据科学界转向以数据为中心的方法,而不是我们大多数人目前在数据科学项目中采用的以模型为中心的方法。在他的《收入通讯》中,他说:
这是一个常见的笑话,80%的机器学习实际上是数据清理,好像这是一个较小的任务。我的观点是,如果我们80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。
像Kaggle这样的网站进一步加剧了这种情况,在这些网站上,参与者可以获得干净的数据,任务仅限于开发不同的模型,目的是最大化预先确定的性能指标。(Kaggle真棒!)
一个真实的项目处理几个问题,而这些问题并不是从仔细清理的数据或定义的问题开始的。在大多数项目中,我们先验地不一定知道哪些特性是相关的,收集数据的频率如何,以及需要回答的正确问题是什么。欢迎来到现实世界!
新的自动化工具的出现将继续使不同模型的实现变得容易和可访问。然而,它无法对现实世界项目中更具挑战性的问题进行分类。许多这样的问题依赖于上下文,自动化的时机还不成熟。
也许是受到关于数据科学的炒作的驱使,我遇到过这样的情况,人们接近我,告诉我他们有数据,并希望我应用“数据科学”来解决他们的问题(这可能也不一定是明确定义的)。我敢打赌,许多不是数据科学家的人认为它是某种魔力(一个可以在一边输入数据,另一端获得输出的工具)。
恰恰相反,真正的项目有需要平衡的权衡。这需要一种迭代方法,首先部署初始模型,然后在收集更多数据以进一步改进时监视性能。
任何部署的模型只有在按预期使用时才有用。这是不能保证的。需要有一个熟练的人员元素,可以继续监视和诊断已部署模型的使用,并提出适当的解决方案来改进它。然而,监测部分不一定要自动化,甚至不一定要定量。可能会发生你无法预料的非常意外和奇怪的事情。
不久前,伦敦大都会警察局测试了一个实时面部识别系统。该系统有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后将这些特征与观察名单中的嫌疑人进行比较。然后,该系统将显示任何匹配,供官员审查并决定是否需要阻止任何嫌疑人(在某些情况下,逮捕)。关于该系统运作的一项独立声明提出了重大关切,并强调了几个限制。在经过6次审判确定的42名嫌疑人中,只有8名(仅19%)证明是正确的匹配。
有许多数据科学算法被歪曲的例子,使它们不够充分,需要进一步发展。就目前的情况来看,我们甚至还没有处于模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出错的用例来进一步自动化此类工具。到目前为止,我们所拥有的最好的方法是在模型部署时识别问题(例如,银行、医疗保健、警务)。
这是最先进的。我们开发和部署模型,但结果证明它们是不够的,不适合目的。我们正处在一个阶段,我们只看到使用不合适的模型的早期后果。有没有自动化的解决方案来处理这个问题?一个都没有!
即使是手动,我们也在受到挑战!
这是我最喜欢的一点。一段时间以来,平凡的、重复的、非认知要求的任务一直处于自动化的风险之中。然而,这种干扰只会导致更多需要人类创造力和解决问题的工作。我们的记忆很糟糕,但我们,人类,在识别模式以解决问题时,却异常出色。
“你的头脑是用来有想法的,而不是拿着它们。”大卫·艾伦
数据科学是科学是有原因的。而是解决问题。我们面临的问题,需要创造性的、巧妙的解决方案。我们正是在这一点上大放异彩,这是一种非常令人向往的技能。数据科学的用例只会增加。这仅仅是因为我们正在收集更多的数据,我们有更多的计算能力在小芯片上实现复杂的数学运算。
让我向您展示实现当今最著名的机器学习算法是多么的微不足道。
假设您已经仔细清理了输入变量(x)和输出变量(y),准备进入模型。使用ingscikit-learn(Python中一个著名的开源机器学习库),我们可以用以下两行代码实现决策树:
from sklearn import tree tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
from sklearn import svm svm.SVC.fit(X,y)
你看到图案了吗?我们所需要做的就是改变函数名,然后你就有了模型。真正的数据科学家不会坐着从头开始重新实现这些算法。他们最终将使用行业中成熟的库,如Scikit-learn。
但你真的认为大多数数据科学家都在这样做,并因这项技能而被雇佣吗?改变模型中的一个单词,然后运行,然后报告结果?不!
然而,作为一名数据科学家,如果这是你关注的全部,那么对这种技能的需求很快就会消失。
实现一个模型是大多数人可以做的事情,如果他们知道工具,而且很容易让人接受培训。硬的部分是:
上面提到的技能是通过在现实世界中工作而获得的,具有挑战性的项目。它们需要时间,学习过程需要认知能力。然而,随着我们收集更多的数据,面对独特的行业挑战,面临更多的竞争(而不是更少!),这些技能将变得越来越重要。
我上面列出的技能属于解决问题和创造力的永恒领域。这些技能将继续备受追捧,因为它们不能自动化。
无论如何,你应该有一个你学习的工具,变得熟练,并理解来龙去脉,因为你得到了更多的经验。但是,要确保你能利用那些让你在挑战性项目中工作的机会,在这些项目中你可以锻炼你的创造性和解决问题的技能。
不要担心数据科学很快就会灭绝。这样的担心只会分散你享受旅程的注意力,你会带着半心半意的信念接近这个领域。如果你相信这样的末日预言,你将无法利用有希望的机会,让你的技能停滞不前。事实上,你的需求将会消失!
“无论你认为你能,还是你认为你不能,你都是对的。”亨利·福特
但是,如果您继续从事具有挑战性的数据科学项目(从数据收集到模型部署),10年后您将处于该领域的正确一边,您的需求只会增加!
选择权在你。对此,作者提出了建议
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10