数据科学初学者应避免的10个错误-CDA数据分析师官网

热线电话：13121318867

首页大数据时代数据科学初学者应避免的10个错误

数据科学初学者应避免的10个错误

2022-02-28

数据科学是成功的。全球成千上万的学生报名参加在线课程，甚至数据科学硕士课程。

数据科学领域是一个竞争非常激烈的市场，尤其是在一家大型科技公司获得一份（假设的）梦想工作。积极的消息是，通过充分的准备，你已经掌握了在这样一个职位上获得竞争优势的机会。

另一方面，也有很多MOOC、硕士课程、训练营、博客、视频和数据科学院。作为一个初学者，你感到失落。我应该上哪门课？我应该学习哪些主题？我需要关注哪些方法？我必须学习什么工具和编程语言？

事实是，每个数据科学家都有她/他的个人旅程，并偏向于那条学习道路。所以，如果不了解你，很难说什么是对你最好的方法。

但也有所有数据科学家一遍又一遍地犯的共同错误。即使知道了它们，你也不会完全回避它们，但最终，你会更早地停止去做它们，并发现更快地回到成功的道路上。

基于我在数据科学领域20多年的经验，带领多达150人的团队，并仍然在全球领先的大学之一兼职授课，我为你总结了避免更快实现梦想的核心错误。

错误给出了作为一个初学者的数据科学家的学习进度的顺序。

#1在您最终开始之前（或最终永远不开始），在评估所有不同类型和选项的课程上投入了太多时间

我知道你被所有的课程淹没了，你尽量不犯任何错误。你想有效地投资你的时间和金钱，选择正确的方法，承诺最快和最好的成功。

不幸的是，在任何技术和科学领域都没有立竿见影的成功，为了最好的成功，你不会有任何比较。

事实是，今天，所有已建立的平台、学院和研究所都有很好的课程。所以，不要过度思考和分析课程。勇敢地选择一个，完成那个课程，然后再选择另一个。

最关键的方面是开始和做。你不能在这里犯错误，因为你既不知道你的旅程，也不知道当选择另一个时，它会有什么不同。没人能告诉你。经期。

同样重要的是要认识到学习是循环的，而不是线性的。选修一门数据科学课程并不排除你正在选修另一门。

在我多年的经验之后，我仍然从事数据科学、机器学习和人工智能训练。在每一个仍然如此“简单”的初学者课程中，我发现了一个新的方面和关于这个主题的新观点。而这正是最终造就一个高要求数据科学家的原因。它是理解对一个主题的所有不同观点。

#2您希望一次学习太多的方法和工具，而不是一个接一个地学习和理解这些方法

许多有抱负的数据科学家认为，简历中提到的尽可能多的方法有助于更快地找到工作。但事实恰恰相反。当你在六个月前开始为每个招聘人员提供数据科学时，很明显，这是一个没有实质内容的流行语。

如果我们看回归模型，有很多书只是关于回归。有50多种回归类型，每种都有不同的前提条件。所以，只有“回归”在你的简历中没有说什么。此外，回归模型仍然是应用程序的最重要的模型，并为一般的数据科学奠定了理解的基础。

你必须明白用一种方法解决的是什么；假设是什么；参数是什么意思；什么是陷阱；等等，等等。

根据简历和回归知识的描述，每一个有经验的招聘人员--或者今天，这个过程背后的算法--都可以识别你理解的深度。

只对少数几种方法有深入的知识和经验，总比对许多方法一无所知要好。

#3您从一开始就编写所有代码，因为您认为这有助于您更好、更快地编写程序

当开始编码时，人们认为他们必须迅速开始编码和重新编程尽可能多的算法。另外，在这里你应该集中于理解几个而不是数量。

首先，你需要了解编码的先决条件：线性代数、数学归纳法、离散数学、几何学--是的，这是优秀程序员的强项，但经常被数据科学家遗忘，统计学和概率论、微积分、布尔代数和图论。

我并没有因为编码更多而变得更好更快。我通过理解数学基础，审查其他人的代码，并在不同的数据和问题上运行和测试它们来擅长编程。

是的，编码是必不可少的，但更重要的是理解代码的（好的）架构。而这只能通过查看其他代码来了解。

一个事实是，代码越来越成为一种商品，甚至出现了无代码工具。区分者将不再是那些能编码和不能编码的人，而是那些理解其架构和不理解其架构的人。

我向您展示另一个示例：我假设您已经使用了TensorFlow。但你明白是什么吗？它是做什么的？以及它为什么被称为“TensorFlow”？你知道张量是什么吗？不仅仅是张量积的机械计算，它在几何上意味着什么？

#4通过学习理论，你认为自己无所不知，但却错过了足够的实践经验

学习数据科学是一种尝试和错误。只有当你做了尽可能多的经验，找出所有的错误并解决它们时，你才会有更深的理解。

理论是好的和重要的。你需要了解基本原理。

不幸的是，在实践中，它很少像理论上那样起作用。相反，它经常以一种方式精确地起作用，正如你所知道的那样，你不应该这样做。

所以，你必须从实际的例子开始。通常，您还没有准备好去做实际的工作：没有足够的基础知识或者没有足够的编程经验。

但我强烈建议：即使你觉得还没有准备好做练习，也要从一开始就开始。它不是一个为期一天或一周的项目。一个1-2小时的小项目就足够了。

您可以从像RapidMiner或KNIME这样的无代码工具开始，也可以使用其他人的代码并应用它。例如。拿一个简单的情感分析代码，用它来推文或产品说明。然后您可以开始更改其他示例的代码并比较结果。

当你小时候学会说话时，你开始用单个单词或两三个单词的表达。一步一步地，你对这种语言建立了一种感觉。数据科学的实践经验也是如此。

专业提示：学习是循环的。所以，储存你的工作。稍后您可以返回，改进它，将其移到GitHub，并使用Tableau添加可视化。

#5您认为证书是获得数据科学工作的竞争优势

认证没问题。有很多声音告诉你，你不应该做认证。但它们可以作为一种动力，最后，它们正式地显示了你的进步和你对学习的渴望。我还是做证件的。它没有错，当你投入时间时，拥有它是合法的。

但它不是市场上的差异化者。事实是，有成千上万的人有同样的认证。因此，要拥有竞争优势，你必须超越这一点。

例如，我的一个学生向我寻求金融领域的实习机会。他想学以致用，了解数据科学团队的文化和合作。我可以把他放在银行里，他可以用银行写学期论文。是的，同时做学习、实习和学期论文是很有压力的。但这将为他提供无价的竞争优势。

#6你担心别人的意见，而不是根据事实建立自己的意见

大多数有抱负的数据科学家担心其他数据科学家的意见。而且他们听到的论据越多，他们就越困惑。即使在清晰的道路上需要混乱，但它不应该保持稳定的状态。

每一个数据科学家都是一个拥有她/他的经验、学习和职业道路和观点的个体。我习惯说，“如果你有两个数据科学家在一个房间里，你至少有四个不同的意见。”

把意见作为灵感和作为搜索信息的指南是好的，但不是作为信息本身。

寻找确凿的事实。得出合乎逻辑的结论，验证并再次更新它们。这是在你的数据科学职业生涯中取得成功的一项重要技能。

#7不关心业务和领域知识

许多数据科学家认为他们可以将这些方法应用于每个问题和行业，但我可以告诉你，从20多年的经验来看，这是错误的。

我经常看到数据科学家向商业人士展示发现，他们的反应是，“哦，我们已经知道这一点了。我们需要的是“为什么会发生这种情况”和“如何解决它”，或者，在最坏的情况下，“这绝对是胡说八道，因为这不是我们的业务运作方式。”嘣！

拥有领域知识比了解所有性别歧视和最花哨的方法更重要。一个数据科学家正在解决一个商业问题，而不是一个技术问题。通过解决一个业务问题，你给公司的业务带来了价值，而你的价值只有你的解决方案的价值。当你了解业务时，你就成功地做到了这一点。

我在许多不同的行业工作过。每次在我开始从事这个行业之前，我都会读到很多关于这个行业的东西。

我从维基百科开始，了解了大局观和公司的情况
我查阅了某行业前10大公司的年报和投资者关系信息
我读了过去几年关于这个行业和公司的所有新闻文章
我联系了在这个行业工作的LinkedIn联系人

只有那时，我才开始与商家互动。

你学习的一半应该包含工业和商业知识的发展。

#8您没有在一致和持续的基础上学习和学习

很容易因为不懂题目而分心或提前放弃。学习数据科学是一场马拉松，而不是短跑。因此，建立一个持续和一致的学习常规是至关重要的。就像马拉松训练一样，你每天都在小单位训练。

同样，正如前面所写的，学习是循环的。曾经研究过一个课题并不意味着你已经掌握了它。

我举个例子。在数学金融讲座中，我不得不学习许多极限定理。考试进行得很好，我确信我理解他们。但七年后，当我不得不审查复杂结构金融产品估值的代码时，天平从我的眼睛里掉了下来，我意识到直到审查代码的那一刻我才明白。

所以，每天，或者至少每周，预定几个小时来学习。不管你是一个有抱负的人还是已经是一个资深的数据科学家。

学习应包括新的数据科学主题、已学过但从另一个角度出发的主题，例如另一门课程或书籍、新技术和技术趋势、工业和商业知识、数据可视化和数据故事，以及数据应用。

它增加了一层又一层的理解，在求职面试中，你将能够通过从不同的角度展示整体观点来给出令人信服的答案。

#9不要用数据讲故事

在一份数据科学工作中，您主要将您的发现传达给非技术人员，特别是业务人员。生意在资助你的工作。没有他们的承诺，你的工作和数据科学团队就不会存在。

你的工作是为企业带来价值。不是为了应用而应用花哨的方法。

我的一个朋友是一家全球性银行的数据科学主管。当他们雇佣数据科学家时，他们会提前两周给他们发送一个数据集，并要求他们做20分钟的演示。没有进一步的投入。他们想看讲故事。他们对所使用的方法不感兴趣--除了候选人会对所使用的方法说出绝对无稽之谈。他们希望看到的是，首先，业务问题的框架，以及为什么解决它很重要。第二，应该解决什么和最后，如何解决，以及在业务环境中的结果。“这是我们一整天做的最重要的工作。候选人在这方面不能尽善尽美，但要表明她/他已经明白我们工作中什么是重要的。“

因此，学习数据讲故事--甚至有免费的课程--并学习业务环境中的数据可视化。