
作为一个在数据科学领域工作了十多年的人,看到人们预言该领域将在10年内如何灭绝是令人沮丧的。给出的典型原因是emergingAutoMLtools将如何消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它阻止了初学者足够认真地对待数据科学,从而在它方面出类拔萃。坦率地说,对于一个需求只会进一步增加的领域,看到这样的预言是对数据科学界的伤害!
为什么任何一个理智的人会投入有限的时间和精力去学习即将灭绝的东西?
给你点东西。如果有一个领域你最有可能真正退休,那就是数据科学。我将给出数据科学不会很快灭绝的四个关键原因。然后我也会给你我的建议,以确保你在10年后保持在数据科学的正确一边。
数据科学不会灭绝,但如果你不跟上它的步伐,你的技能可能会灭绝。我们潜水吧。
让我们从科学开始。我不必让你相信科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后我们创建一个模型(传统上称为理论),可以总结和解释这些观察。我们创建这些模型来帮助我们解决问题。
数据科学的本质也正是如此。收集数据,通过创建模型从中学习,然后使用那些模型解决问题。多年来,不同的学科已经开发和完善了几个工具来实现这一点。根据该领域的重点,使用不同的名称来描述这组工具和过程。术语是Data Science。
然而,以前的时代与现在的不同之处在于数据量和我们可用的计算能力。当我们只有几个数据点和几个维度时,手工将它们放在纸上并拟合一条直线(回归)或识别模式是可能的。现在,我们可以廉价地从多个来源(多个特性)收集大量数据。当你有大量的数据点和维度时,拟合一条直线(或集群)是不可能的,也是不可行的。
如果收集数据并开发模型来解释它的做法已经存在了几个世纪,为什么你认为它会在未来10年内灭绝?
如果有什么不同的话,我们将收集更多种类的数据,我们将需要创造性地将它们结合起来解决问题的新方法。
在“自动机器学习”的保护伞下的几种工具正在获得吸引力,其中一些可能会导致数据科学的民主化。但是,大多数这样的工具将有助于加快对cleaned数据输入的不同算法的测试和实现。
但是向模型中获取干净数据的能力一点也不简单。
事实上,一些与数据科学相关的调查已经指出,任何数据科学家在收集和清理数据上花费的时间都是不成比例的。例如,Anaconda的年度调查(数据科学家使用的领先分布之一)指出,数据科学家将66%的时间用于数据加载、清理和可视化,只有23%的时间用于模型训练、选择和评分。我在这个领域工作了十多年的个人经历也是类似的。
学习算法如何在底层工作并理解它们的细微差别一点也不简单,许多在线课程花时间解释这些都是正确的。然而,这种对算法的关注只会造成一种错误的错觉,好像数据科学就是关于模型的。许多有经验的实践者开始看到以数据清理为代价对模型的过度强调。Andrew Ng(该领域的领先专家)一直鼓励数据科学界转向以数据为中心的方法,而不是我们大多数人目前在数据科学项目中采用的以模型为中心的方法。在他的《收入通讯》中,他说:
这是一个常见的笑话,80%的机器学习实际上是数据清理,好像这是一个较小的任务。我的观点是,如果我们80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。
像Kaggle这样的网站进一步加剧了这种情况,在这些网站上,参与者可以获得干净的数据,任务仅限于开发不同的模型,目的是最大化预先确定的性能指标。(Kaggle真棒!)
一个真实的项目处理几个问题,而这些问题并不是从仔细清理的数据或定义的问题开始的。在大多数项目中,我们先验地不一定知道哪些特性是相关的,收集数据的频率如何,以及需要回答的正确问题是什么。欢迎来到现实世界!
新的自动化工具的出现将继续使不同模型的实现变得容易和可访问。然而,它无法对现实世界项目中更具挑战性的问题进行分类。许多这样的问题依赖于上下文,自动化的时机还不成熟。
也许是受到关于数据科学的炒作的驱使,我遇到过这样的情况,人们接近我,告诉我他们有数据,并希望我应用“数据科学”来解决他们的问题(这可能也不一定是明确定义的)。我敢打赌,许多不是数据科学家的人认为它是某种魔力(一个可以在一边输入数据,另一端获得输出的工具)。
恰恰相反,真正的项目有需要平衡的权衡。这需要一种迭代方法,首先部署初始模型,然后在收集更多数据以进一步改进时监视性能。
任何部署的模型只有在按预期使用时才有用。这是不能保证的。需要有一个熟练的人员元素,可以继续监视和诊断已部署模型的使用,并提出适当的解决方案来改进它。然而,监测部分不一定要自动化,甚至不一定要定量。可能会发生你无法预料的非常意外和奇怪的事情。
不久前,伦敦大都会警察局测试了一个实时面部识别系统。该系统有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后将这些特征与观察名单中的嫌疑人进行比较。然后,该系统将显示任何匹配,供官员审查并决定是否需要阻止任何嫌疑人(在某些情况下,逮捕)。关于该系统运作的一项独立声明提出了重大关切,并强调了几个限制。在经过6次审判确定的42名嫌疑人中,只有8名(仅19%)证明是正确的匹配。
有许多数据科学算法被歪曲的例子,使它们不够充分,需要进一步发展。就目前的情况来看,我们甚至还没有处于模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出错的用例来进一步自动化此类工具。到目前为止,我们所拥有的最好的方法是在模型部署时识别问题(例如,银行、医疗保健、警务)。
这是最先进的。我们开发和部署模型,但结果证明它们是不够的,不适合目的。我们正处在一个阶段,我们只看到使用不合适的模型的早期后果。有没有自动化的解决方案来处理这个问题?一个都没有!
即使是手动,我们也在受到挑战!
这是我最喜欢的一点。一段时间以来,平凡的、重复的、非认知要求的任务一直处于自动化的风险之中。然而,这种干扰只会导致更多需要人类创造力和解决问题的工作。我们的记忆很糟糕,但我们,人类,在识别模式以解决问题时,却异常出色。
“你的头脑是用来有想法的,而不是拿着它们。”大卫·艾伦
数据科学是科学是有原因的。而是解决问题。我们面临的问题,需要创造性的、巧妙的解决方案。我们正是在这一点上大放异彩,这是一种非常令人向往的技能。数据科学的用例只会增加。这仅仅是因为我们正在收集更多的数据,我们有更多的计算能力在小芯片上实现复杂的数学运算。
让我向您展示实现当今最著名的机器学习算法是多么的微不足道。
假设您已经仔细清理了输入变量(x)和输出变量(y),准备进入模型。使用ingscikit-learn(Python中一个著名的开源机器学习库),我们可以用以下两行代码实现决策树:
from sklearn import tree tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
from sklearn import svm svm.SVC.fit(X,y)
你看到图案了吗?我们所需要做的就是改变函数名,然后你就有了模型。真正的数据科学家不会坐着从头开始重新实现这些算法。他们最终将使用行业中成熟的库,如Scikit-learn。
但你真的认为大多数数据科学家都在这样做,并因这项技能而被雇佣吗?改变模型中的一个单词,然后运行,然后报告结果?不!
然而,作为一名数据科学家,如果这是你关注的全部,那么对这种技能的需求很快就会消失。
实现一个模型是大多数人可以做的事情,如果他们知道工具,而且很容易让人接受培训。硬的部分是:
上面提到的技能是通过在现实世界中工作而获得的,具有挑战性的项目。它们需要时间,学习过程需要认知能力。然而,随着我们收集更多的数据,面对独特的行业挑战,面临更多的竞争(而不是更少!),这些技能将变得越来越重要。
我上面列出的技能属于解决问题和创造力的永恒领域。这些技能将继续备受追捧,因为它们不能自动化。
无论如何,你应该有一个你学习的工具,变得熟练,并理解来龙去脉,因为你得到了更多的经验。但是,要确保你能利用那些让你在挑战性项目中工作的机会,在这些项目中你可以锻炼你的创造性和解决问题的技能。
不要担心数据科学很快就会灭绝。这样的担心只会分散你享受旅程的注意力,你会带着半心半意的信念接近这个领域。如果你相信这样的末日预言,你将无法利用有希望的机会,让你的技能停滞不前。事实上,你的需求将会消失!
“无论你认为你能,还是你认为你不能,你都是对的。”亨利·福特
但是,如果您继续从事具有挑战性的数据科学项目(从数据收集到模型部署),10年后您将处于该领域的正确一边,您的需求只会增加!
选择权在你。对此,作者提出了建议
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03从招聘要求看数据分析师的能力素养与职业发展 在数字化浪潮席卷全球的当下,数据已成为企业的核心资产,数据分析师岗位也随 ...
2025-07-03Power BI 中如何控制过滤器选择项目数并在超限时报错 引言 在使用 Power BI 进行数据可视化和分析的过程中,对过滤器的有 ...
2025-07-03把握 CDA 考试时间,开启数据分析职业之路 在数字化转型的时代浪潮下,数据已成为企业决策的核心驱动力。CDA(Certified Da ...
2025-07-02CDA 证书:银行招聘中的 “黄金通行证” 在金融科技飞速发展的当下,银行正加速向数字化、智能化转型,海量数据成为银行精准 ...
2025-07-02探索最优回归方程:数据背后的精准预测密码 在数据分析和统计学的广阔领域中,回归分析是揭示变量之间关系的重要工具,而回 ...
2025-07-02CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30探索 CDA 数据分析师在线课程:开启数据洞察之旅 在数字化浪潮席卷全球的当下,数据已成为企业决策、创新与发展的核心驱 ...
2025-06-303D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32% 编辑:LRST 【新智元导读】中科院自动化所提出BridgeVLA模型,通过将 ...
2025-06-30LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26