
数据科学是成功的。全球成千上万的学生报名参加在线课程,甚至数据科学硕士课程。
数据科学领域是一个竞争非常激烈的市场,尤其是在一家大型科技公司获得一份(假设的)梦想工作。积极的消息是,通过充分的准备,你已经掌握了在这样一个职位上获得竞争优势的机会。
另一方面,也有很多MOOC、硕士课程、训练营、博客、视频和数据科学院。作为一个初学者,你感到失落。我应该上哪门课?我应该学习哪些主题?我需要关注哪些方法?我必须学习什么工具和编程语言?
事实是,每个数据科学家都有她/他的个人旅程,并偏向于那条学习道路。所以,如果不了解你,很难说什么是对你最好的方法。
但也有所有数据科学家一遍又一遍地犯的共同错误。即使知道了它们,你也不会完全回避它们,但最终,你会更早地停止去做它们,并发现更快地回到成功的道路上。
基于我在数据科学领域20多年的经验,带领多达150人的团队,并仍然在全球领先的大学之一兼职授课,我为你总结了避免更快实现梦想的核心错误。
错误给出了作为一个初学者的数据科学家的学习进度的顺序。
我知道你被所有的课程淹没了,你尽量不犯任何错误。你想有效地投资你的时间和金钱,选择正确的方法,承诺最快和最好的成功。
不幸的是,在任何技术和科学领域都没有立竿见影的成功,为了最好的成功,你不会有任何比较。
事实是,今天,所有已建立的平台、学院和研究所都有很好的课程。所以,不要过度思考和分析课程。勇敢地选择一个,完成那个课程,然后再选择另一个。
最关键的方面是开始和做。你不能在这里犯错误,因为你既不知道你的旅程,也不知道当选择另一个时,它会有什么不同。没人能告诉你。经期。
同样重要的是要认识到学习是循环的,而不是线性的。选修一门数据科学课程并不排除你正在选修另一门。
在我多年的经验之后,我仍然从事数据科学、机器学习和人工智能训练。在每一个仍然如此“简单”的初学者课程中,我发现了一个新的方面和关于这个主题的新观点。而这正是最终造就一个高要求数据科学家的原因。它是理解对一个主题的所有不同观点。
许多有抱负的数据科学家认为,简历中提到的尽可能多的方法有助于更快地找到工作。但事实恰恰相反。当你在六个月前开始为每个招聘人员提供数据科学时,很明显,这是一个没有实质内容的流行语。
如果我们看回归模型,有很多书只是关于回归。有50多种回归类型,每种都有不同的前提条件。所以,只有“回归”在你的简历中没有说什么。此外,回归模型仍然是应用程序的最重要的模型,并为一般的数据科学奠定了理解的基础。
你必须明白用一种方法解决的是什么;假设是什么;参数是什么意思;什么是陷阱;等等,等等。
根据简历和回归知识的描述,每一个有经验的招聘人员--或者今天,这个过程背后的算法--都可以识别你理解的深度。
只对少数几种方法有深入的知识和经验,总比对许多方法一无所知要好。
当开始编码时,人们认为他们必须迅速开始编码和重新编程尽可能多的算法。另外,在这里你应该集中于理解几个而不是数量。
首先,你需要了解编码的先决条件:线性代数、数学归纳法、离散数学、几何学--是的,这是优秀程序员的强项,但经常被数据科学家遗忘,统计学和概率论、微积分、布尔代数和图论。
我并没有因为编码更多而变得更好更快。我通过理解数学基础,审查其他人的代码,并在不同的数据和问题上运行和测试它们来擅长编程。
是的,编码是必不可少的,但更重要的是理解代码的(好的)架构。而这只能通过查看其他代码来了解。
一个事实是,代码越来越成为一种商品,甚至出现了无代码工具。区分者将不再是那些能编码和不能编码的人,而是那些理解其架构和不理解其架构的人。
我向您展示另一个示例:我假设您已经使用了TensorFlow。但你明白是什么吗?它是做什么的?以及它为什么被称为“TensorFlow”?你知道张量是什么吗?不仅仅是张量积的机械计算,它在几何上意味着什么?
学习数据科学是一种尝试和错误。只有当你做了尽可能多的经验,找出所有的错误并解决它们时,你才会有更深的理解。
理论是好的和重要的。你需要了解基本原理。
不幸的是,在实践中,它很少像理论上那样起作用。相反,它经常以一种方式精确地起作用,正如你所知道的那样,你不应该这样做。
所以,你必须从实际的例子开始。通常,您还没有准备好去做实际的工作:没有足够的基础知识或者没有足够的编程经验。
但我强烈建议:即使你觉得还没有准备好做练习,也要从一开始就开始。它不是一个为期一天或一周的项目。一个1-2小时的小项目就足够了。
您可以从像RapidMiner或KNIME这样的无代码工具开始,也可以使用其他人的代码并应用它。例如。拿一个简单的情感分析代码,用它来推文或产品说明。然后您可以开始更改其他示例的代码并比较结果。
当你小时候学会说话时,你开始用单个单词或两三个单词的表达。一步一步地,你对这种语言建立了一种感觉。数据科学的实践经验也是如此。
专业提示:学习是循环的。所以,储存你的工作。稍后您可以返回,改进它,将其移到GitHub,并使用Tableau添加可视化。
认证没问题。有很多声音告诉你,你不应该做认证。但它们可以作为一种动力,最后,它们正式地显示了你的进步和你对学习的渴望。我还是做证件的。它没有错,当你投入时间时,拥有它是合法的。
但它不是市场上的差异化者。事实是,有成千上万的人有同样的认证。因此,要拥有竞争优势,你必须超越这一点。
例如,我的一个学生向我寻求金融领域的实习机会。他想学以致用,了解数据科学团队的文化和合作。我可以把他放在银行里,他可以用银行写学期论文。是的,同时做学习、实习和学期论文是很有压力的。但这将为他提供无价的竞争优势。
大多数有抱负的数据科学家担心其他数据科学家的意见。而且他们听到的论据越多,他们就越困惑。即使在清晰的道路上需要混乱,但它不应该保持稳定的状态。
每一个数据科学家都是一个拥有她/他的经验、学习和职业道路和观点的个体。我习惯说,“如果你有两个数据科学家在一个房间里,你至少有四个不同的意见。”
把意见作为灵感和作为搜索信息的指南是好的,但不是作为信息本身。
寻找确凿的事实。得出合乎逻辑的结论,验证并再次更新它们。这是在你的数据科学职业生涯中取得成功的一项重要技能。
许多数据科学家认为他们可以将这些方法应用于每个问题和行业,但我可以告诉你,从20多年的经验来看,这是错误的。
我经常看到数据科学家向商业人士展示发现,他们的反应是,“哦,我们已经知道这一点了。我们需要的是“为什么会发生这种情况”和“如何解决它”,或者,在最坏的情况下,“这绝对是胡说八道,因为这不是我们的业务运作方式。”嘣!
拥有领域知识比了解所有性别歧视和最花哨的方法更重要。一个数据科学家正在解决一个商业问题,而不是一个技术问题。通过解决一个业务问题,你给公司的业务带来了价值,而你的价值只有你的解决方案的价值。当你了解业务时,你就成功地做到了这一点。
我在许多不同的行业工作过。每次在我开始从事这个行业之前,我都会读到很多关于这个行业的东西。
只有那时,我才开始与商家互动。
你学习的一半应该包含工业和商业知识的发展。
很容易因为不懂题目而分心或提前放弃。学习数据科学是一场马拉松,而不是短跑。因此,建立一个持续和一致的学习常规是至关重要的。就像马拉松训练一样,你每天都在小单位训练。
同样,正如前面所写的,学习是循环的。曾经研究过一个课题并不意味着你已经掌握了它。
我举个例子。在数学金融讲座中,我不得不学习许多极限定理。考试进行得很好,我确信我理解他们。但七年后,当我不得不审查复杂结构金融产品估值的代码时,天平从我的眼睛里掉了下来,我意识到直到审查代码的那一刻我才明白。
所以,每天,或者至少每周,预定几个小时来学习。不管你是一个有抱负的人还是已经是一个资深的数据科学家。
学习应包括新的数据科学主题、已学过但从另一个角度出发的主题,例如另一门课程或书籍、新技术和技术趋势、工业和商业知识、数据可视化和数据故事,以及数据应用。
它增加了一层又一层的理解,在求职面试中,你将能够通过从不同的角度展示整体观点来给出令人信服的答案。
在一份数据科学工作中,您主要将您的发现传达给非技术人员,特别是业务人员。生意在资助你的工作。没有他们的承诺,你的工作和数据科学团队就不会存在。
你的工作是为企业带来价值。不是为了应用而应用花哨的方法。
我的一个朋友是一家全球性银行的数据科学主管。当他们雇佣数据科学家时,他们会提前两周给他们发送一个数据集,并要求他们做20分钟的演示。没有进一步的投入。他们想看讲故事。他们对所使用的方法不感兴趣--除了候选人会对所使用的方法说出绝对无稽之谈。他们希望看到的是,首先,业务问题的框架,以及为什么解决它很重要。第二,应该解决什么和最后,如何解决,以及在业务环境中的结果。“这是我们一整天做的最重要的工作。候选人在这方面不能尽善尽美,但要表明她/他已经明白我们工作中什么是重要的。“
因此,学习数据讲故事--甚至有免费的课程--并学习业务环境中的数据可视化。
许多人认为他们可以通过自己的努力学习数据科学。所有其他数据科学家都被视为竞争对手,其中一个不愿意交流知识。
但是生活在你的世界里,你只根据你的选择来阅读和学习,这是非常有偏见的,对一个主题或方法的许多观点都是缺失的。此外,关于一个主题的开放式论述和在论证中获得经验是缺失的--这是任何数据科学家都需要的技能。
任何有经验的招聘人员在问一两个问题后都会知道你是一个人表演,还是你有一个生动的网络来帮助你成倍地获得知识。这有利于公司,增加您的市场价值和需求。
因此,发展网络是至关重要的。这可以通过参加训练营、黑客马拉松和Meetup会议来实现。
现在,你从理论上知道你应该避免什么了。
这些错误中的任何一个对你的数据科学工作来说都是一个潜在的搅局者。
我知道你还会犯几个这样的错误。我没有什么不同。认为“我与众不同”是人之常情--尽管数据说的恰恰相反。但是意识到这些潜在的错误将帮助你更快地重新调整你的路径,从而更有效地成为一名被要求的数据科学家。
增加工作机会的一步一步实际指导
如何战略性地利用Meetup会议来获得你梦寐以求的数据科学工作
edX 2021上的数据科学微主程序最终指南
6个节目你该选哪一个?
顶级技术趋势及其对数据科学、机器学习和人工智能的影响
为你和你的事业制定的行动计划
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08