登录
首页大数据时代在我的数据科学生涯的3年里,我学到的3个最重要的教训
在我的数据科学生涯的3年里,我学到的3个最重要的教训
2022-02-28
收藏

我相信这些课程是如此重要,因为它们有助于拥有一个成功的数据科学职业生涯。读完这篇文章后,您会意识到,要成为一名优秀的数据科学家,不仅仅是构建复杂的模型。

话虽如此,以下是我在数据科学生涯中学到的3个最重要的教训!

1.很大一部分时间实际上花在你的项目之间(之前和之后)。

其中一件事是,几乎所有的数据科学课程和训练营都强调并详细阐述了项目生命周期中的建模阶段,而实际上,这只是整个过程的一个很小的组成部分。

如果在工作中构建一个初步的机器学习模型需要一个月的时间,那么您可能需要花一个月的时间来事先理解业务问题,然后记录和社交项目。

不仅建议您在构建模型之前和之后完成这些步骤,而且这对项目的成功至关重要

让我们深入探讨每一个问题的重要性:

  • 业务理解:理解手头的业务问题对您的成功至关重要。例如,如果您正在构建一个机器学习模型,您应该知道该模型应该预测什么,谁将使用它,它将如何实际使用,您将使用什么度量来评估该模型,等等。您必须花时间了解关于业务目标的所有以创建适用的模型。
  • 文档:虽然我同意文档不如浏览数据和构建模型那么令人兴奋,但对于代码、构建的任何表以及如何构建模型,有清晰简洁的文档是很重要的。这一点非常重要,这样您或其他人在使用模型或修复模型时就可以轻松地参考这些资源。
  • 社会化:社会化很少被谈论,但如果业务不使用您的项目,它们就不会成功。使你的项目社会化需要向相关的利益相关者展示它们,解释它们的价值,以及如何使用它们。您可以向更多的利益相关者推销您的想法,他们就越有可能采用您的数据产品,您的项目也就越成功。

这三个步骤有什么共同点?它们都是交流的一种形式。事实上,我认为良好的交流是数据科学家和高级数据科学家之间的区别。

2.基本面会让你超过80%的成功。

当我开始学习数据科学时,我试图学习最复杂的概念,而不学习基础知识。

经过多年的经验,我已经意识到,基础知识足以让你在职业生涯中取得80%以上的成功。为什么?简单的解决方案总是会赢。它们更容易理解,更容易实现,也更容易维护。一旦一个简单的解决方案证明了它对公司的价值,只有这样,您才能研究更复杂的解决方案。

那么基本面到底是什么呢?

A)SQL

经过3年的工作,我确信掌握SQL是成功职业生涯的关键。SQL并不是一项难以学习的技能(例如,从哪里选择),但它肯定是一项难以完善的技能。SQL对于数据争论、数据探索数据可视化(构建仪表板)、构建报表和构建数据管道至关重要。

如果你想掌握SQL,请看下面我的指南:一个完整的15周的课程来掌握数据科学的SQL

B)描述性和推论性统计

对基本的描述性和推论性统计有一个很好的理解也是非常重要的。

描述性统计信息允许您以简单的方式总结和理解数据。

推理统计允许您根据有限数量的数据(样本)做出结论。这对于建立解释模型和A/B测试是必不可少的。

C)用于EDA和特征工程的Python

Python主要用于执行EDA和特性工程。也就是说,这两个步骤也可以使用SQL来完成,所以要记住这一点。我个人喜欢在我的技术栈中使用Python,因为我发现在Jupyter笔记本中执行EDA比在SQL控制台或仪表板中执行EDA更容易。查看:探索性数据分析的一个详细的一步一步指南

3.迭代并构建一个模型的多个版本比花费大量时间构建一个最终模型要好。

构建、测试、迭代、重复。

通常,在一个模型上花费更少的时间来将初始版本投入生产并从那里进行迭代总是更好的。为什么?

  1. 在初始模型上分配更少的时间激励您提出更简单的解决方案。正如我在本文前面所说的,简单的解决方案有几个好处。
  2. 你提出POC(概念证明)的速度越快,你就能越快地从其他人那里得到改进的反馈。
  3. 业务需要不断变化,因此如果能够尽早部署项目,那么成功的可能性更大。

我想说明的一点是不是催促您的项目,而是快速部署它们,以便您可以接收反馈、迭代和改进您的项目。


数据分析咨询请扫描二维码

客服在线
立即咨询