京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作为一个在数据科学领域工作了十多年的人,看到人们预言该领域将在10年内如何灭绝是令人沮丧的。给出的典型原因是emergingAutoMLtools将如何消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它阻止了初学者足够认真地对待数据科学,从而在它方面出类拔萃。坦率地说,对于一个需求只会进一步增加的领域,看到这样的预言是对数据科学界的伤害!
为什么任何一个理智的人会投入有限的时间和精力去学习即将灭绝的东西?
给你点东西。如果有一个领域你最有可能真正退休,那就是数据科学。我将给出数据科学不会很快灭绝的四个关键原因。然后我也会给你我的建议,以确保你在10年后保持在数据科学的正确一边。
数据科学不会灭绝,但如果你不跟上它的步伐,你的技能可能会灭绝。我们潜水吧。
让我们从科学开始。我不必让你相信科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后我们创建一个模型(传统上称为理论),可以总结和解释这些观察。我们创建这些模型来帮助我们解决问题。
数据科学的本质也正是如此。收集数据,通过创建模型从中学习,然后使用那些模型解决问题。多年来,不同的学科已经开发和完善了几个工具来实现这一点。根据该领域的重点,使用不同的名称来描述这组工具和过程。术语是Data Science。
然而,以前的时代与现在的不同之处在于数据量和我们可用的计算能力。当我们只有几个数据点和几个维度时,手工将它们放在纸上并拟合一条直线(回归)或识别模式是可能的。现在,我们可以廉价地从多个来源(多个特性)收集大量数据。当你有大量的数据点和维度时,拟合一条直线(或集群)是不可能的,也是不可行的。
如果收集数据并开发模型来解释它的做法已经存在了几个世纪,为什么你认为它会在未来10年内灭绝?
如果有什么不同的话,我们将收集更多种类的数据,我们将需要创造性地将它们结合起来解决问题的新方法。
在“自动机器学习”的保护伞下的几种工具正在获得吸引力,其中一些可能会导致数据科学的民主化。但是,大多数这样的工具将有助于加快对cleaned数据输入的不同算法的测试和实现。
但是向模型中获取干净数据的能力一点也不简单。
事实上,一些与数据科学相关的调查已经指出,任何数据科学家在收集和清理数据上花费的时间都是不成比例的。例如,Anaconda的年度调查(数据科学家使用的领先分布之一)指出,数据科学家将66%的时间用于数据加载、清理和可视化,只有23%的时间用于模型训练、选择和评分。我在这个领域工作了十多年的个人经历也是类似的。
学习算法如何在底层工作并理解它们的细微差别一点也不简单,许多在线课程花时间解释这些都是正确的。然而,这种对算法的关注只会造成一种错误的错觉,好像数据科学就是关于模型的。许多有经验的实践者开始看到以数据清理为代价对模型的过度强调。Andrew Ng(该领域的领先专家)一直鼓励数据科学界转向以数据为中心的方法,而不是我们大多数人目前在数据科学项目中采用的以模型为中心的方法。在他的《收入通讯》中,他说:
这是一个常见的笑话,80%的机器学习实际上是数据清理,好像这是一个较小的任务。我的观点是,如果我们80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。
像Kaggle这样的网站进一步加剧了这种情况,在这些网站上,参与者可以获得干净的数据,任务仅限于开发不同的模型,目的是最大化预先确定的性能指标。(Kaggle真棒!)
一个真实的项目处理几个问题,而这些问题并不是从仔细清理的数据或定义的问题开始的。在大多数项目中,我们先验地不一定知道哪些特性是相关的,收集数据的频率如何,以及需要回答的正确问题是什么。欢迎来到现实世界!
新的自动化工具的出现将继续使不同模型的实现变得容易和可访问。然而,它无法对现实世界项目中更具挑战性的问题进行分类。许多这样的问题依赖于上下文,自动化的时机还不成熟。
也许是受到关于数据科学的炒作的驱使,我遇到过这样的情况,人们接近我,告诉我他们有数据,并希望我应用“数据科学”来解决他们的问题(这可能也不一定是明确定义的)。我敢打赌,许多不是数据科学家的人认为它是某种魔力(一个可以在一边输入数据,另一端获得输出的工具)。
恰恰相反,真正的项目有需要平衡的权衡。这需要一种迭代方法,首先部署初始模型,然后在收集更多数据以进一步改进时监视性能。
任何部署的模型只有在按预期使用时才有用。这是不能保证的。需要有一个熟练的人员元素,可以继续监视和诊断已部署模型的使用,并提出适当的解决方案来改进它。然而,监测部分不一定要自动化,甚至不一定要定量。可能会发生你无法预料的非常意外和奇怪的事情。
不久前,伦敦大都会警察局测试了一个实时面部识别系统。该系统有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后将这些特征与观察名单中的嫌疑人进行比较。然后,该系统将显示任何匹配,供官员审查并决定是否需要阻止任何嫌疑人(在某些情况下,逮捕)。关于该系统运作的一项独立声明提出了重大关切,并强调了几个限制。在经过6次审判确定的42名嫌疑人中,只有8名(仅19%)证明是正确的匹配。
有许多数据科学算法被歪曲的例子,使它们不够充分,需要进一步发展。就目前的情况来看,我们甚至还没有处于模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出错的用例来进一步自动化此类工具。到目前为止,我们所拥有的最好的方法是在模型部署时识别问题(例如,银行、医疗保健、警务)。
这是最先进的。我们开发和部署模型,但结果证明它们是不够的,不适合目的。我们正处在一个阶段,我们只看到使用不合适的模型的早期后果。有没有自动化的解决方案来处理这个问题?一个都没有!
即使是手动,我们也在受到挑战!
这是我最喜欢的一点。一段时间以来,平凡的、重复的、非认知要求的任务一直处于自动化的风险之中。然而,这种干扰只会导致更多需要人类创造力和解决问题的工作。我们的记忆很糟糕,但我们,人类,在识别模式以解决问题时,却异常出色。
“你的头脑是用来有想法的,而不是拿着它们。”大卫·艾伦
数据科学是科学是有原因的。而是解决问题。我们面临的问题,需要创造性的、巧妙的解决方案。我们正是在这一点上大放异彩,这是一种非常令人向往的技能。数据科学的用例只会增加。这仅仅是因为我们正在收集更多的数据,我们有更多的计算能力在小芯片上实现复杂的数学运算。
让我向您展示实现当今最著名的机器学习算法是多么的微不足道。
假设您已经仔细清理了输入变量(x)和输出变量(y),准备进入模型。使用ingscikit-learn(Python中一个著名的开源机器学习库),我们可以用以下两行代码实现决策树:
from sklearn import tree tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
from sklearn import svm svm.SVC.fit(X,y)
你看到图案了吗?我们所需要做的就是改变函数名,然后你就有了模型。真正的数据科学家不会坐着从头开始重新实现这些算法。他们最终将使用行业中成熟的库,如Scikit-learn。
但你真的认为大多数数据科学家都在这样做,并因这项技能而被雇佣吗?改变模型中的一个单词,然后运行,然后报告结果?不!
然而,作为一名数据科学家,如果这是你关注的全部,那么对这种技能的需求很快就会消失。
实现一个模型是大多数人可以做的事情,如果他们知道工具,而且很容易让人接受培训。硬的部分是:
上面提到的技能是通过在现实世界中工作而获得的,具有挑战性的项目。它们需要时间,学习过程需要认知能力。然而,随着我们收集更多的数据,面对独特的行业挑战,面临更多的竞争(而不是更少!),这些技能将变得越来越重要。
我上面列出的技能属于解决问题和创造力的永恒领域。这些技能将继续备受追捧,因为它们不能自动化。
无论如何,你应该有一个你学习的工具,变得熟练,并理解来龙去脉,因为你得到了更多的经验。但是,要确保你能利用那些让你在挑战性项目中工作的机会,在这些项目中你可以锻炼你的创造性和解决问题的技能。
不要担心数据科学很快就会灭绝。这样的担心只会分散你享受旅程的注意力,你会带着半心半意的信念接近这个领域。如果你相信这样的末日预言,你将无法利用有希望的机会,让你的技能停滞不前。事实上,你的需求将会消失!
“无论你认为你能,还是你认为你不能,你都是对的。”亨利·福特
但是,如果您继续从事具有挑战性的数据科学项目(从数据收集到模型部署),10年后您将处于该领域的正确一边,您的需求只会增加!
选择权在你。对此,作者提出了建议
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python文件操作场景中,批量处理文件、遍历目录树是高频需求——无论是统计某文件夹下的文件数量、筛选特定类型文件,还是批量 ...
2026-01-05在神经网络模型训练过程中,开发者最担心的问题之一,莫过于“训练误差突然增大”——前几轮还平稳下降的损失值(Loss),突然在 ...
2026-01-05在数据驱动的业务场景中,“垃圾数据进,垃圾结果出”是永恒的警示。企业收集的数据往往存在缺失、异常、重复、格式混乱等问题, ...
2026-01-05在数字化时代,用户行为数据已成为企业的核心资产之一。从用户打开APP的首次点击,到浏览页面的停留时长,再到最终的购买决策、 ...
2026-01-04在数据分析领域,数据稳定性是衡量数据质量的核心维度之一,直接决定了分析结果的可靠性与决策价值。稳定的数据能反映事物的固有 ...
2026-01-04在CDA(Certified Data Analyst)数据分析师的工作链路中,数据读取是连接原始数据与后续分析的关键桥梁。如果说数据采集是“获 ...
2026-01-04尊敬的考生: 您好! 我们诚挚通知您,CDA Level III 考试大纲将于 2025 年 12 月 31 日实施重大更新,并正式启用,2026年3月考 ...
2025-12-31“字如其人”的传统认知,让不少“手残党”在需要签名的场景中倍感尴尬——商务签约时的签名歪歪扭扭,朋友聚会的签名墙不敢落笔 ...
2025-12-31在多元统计分析的因子分析中,“得分系数”是连接原始观测指标与潜在因子的关键纽带,其核心作用是将多个相关性较高的原始指标, ...
2025-12-31对CDA(Certified Data Analyst)数据分析师而言,高质量的数据是开展后续分析、挖掘业务价值的基础,而数据采集作为数据链路的 ...
2025-12-31在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26