作为数据科学家，我都有哪些弱点？-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读作为数据科学家，我都有哪些弱点？

作为数据科学家，我都有哪些弱点？

2018-12-24

作者 | William Koehrsen

翻译 | Mika

本文为 CDA 数据分析师原创作品，转载需授权

如果现代工作面试教会了我们什么，那就是关于“你最大的弱点是什么？”这个问题，正确答案是“我工作太努力了。”显然，说出自己的弱点是很可笑的。虽然在个人简历中列出弱点不太好，但是如果不承认自己的不足，我们就无法采取措施改善它们。

做出改进的方法很简单：

明确现在的位置：找出弱点

想变成什么样：制定实现的计划

执行计划：一步步改进

我们很少能跨越第一步，特别是对于在技术领域工作的人群。我们埋头苦干，不断工作，使用已掌握的技能，而不是获得哪些能让我们工作更轻松或能带来新机会的新技能。自我反省，客观地评估自己，这似乎是一个陌生的概念。但若能够退后一步，弄清我们哪些方面能做得更好，从而在该领域取得进步，这是至关重要的。

考虑到这一点，我试着客观地评价自己，并总结了目前自己的三个弱点，改善以下这几点能让我成为更好的数据科学家：

软件工程

扩展数据科学

深度学习

本文中我列出这些弱点主要的目的在于：首先，我非常想提高自己的能力，通过列出自己的不足以及如何解决它们，希望能够激励自己继续学习，完成目标。

其次，我希望鼓励其他人思考自己有哪些没掌握的技能，以及该如何获取这些技能。

最后，我想告诉你，成为出色的数据科学并不需要做到无所不知。关于数据科学和机器学习的知识是无线的，你能够掌握的是有限的。我常常听到初学者抱怨，要掌握的知识太多了，我给出的建议就是：从基础开始，你并不需要掌握所有内容。

只有极少的数据科学家能够掌握全部知识

对于每个弱点，我都列出了具体的问题，以及我目前在做什么进行改进。发现自己的不足很重要，但制定改进计划也同样重要。学习一项新技能需要时间，但计划好一步步的具体步骤会大大增加你成功的几率。

1. 软件工程

在大学时进行我的第一个数据科学项目后，我开始试着避免一些数据科学方法中的坏习惯。其中包括编写仅运行一次的代码，缺少文档，没有一致性且难阅读的代码，硬编码特定值等。这些都是写论文所带来的，为了写一篇论文，开发针对特定数据集且只能运行一次的解决方案。

其中一个典型的例子是，我们有个项目使用建筑能源数据，最初每隔15分钟获取一次数据。当我们把时间增加为20分钟时，数据管道完全崩溃了，因为许多地方已明确将时间编为15分钟。我们不能进行简单的查找和替换，因为该参数被设定为多个名称，如`electricity_interval` `timeBetweenMeasurements`还有`dataFreq`。我们当中没有人想过让代码更易阅读或能够灵活改变输入。

相比之下，从软件工程的角度来看，代码必须使用大量不同的输入进行测试，在现有框架内工作，并遵守编程标准，以便其他开发人员能够理解。尽管我的初衷是好的，但我偶尔会像数据科学家那样写代码，而不是像软件工程师那样。现在我正在训练自己像计算机科学家一样思考。

我在做什么

学习技能没有比练习更好的方法。幸运的是，在我目前的工作中，我能够为内部工具和开源库（Featuretools）做出贡献。这迫使我学习了很多技能，包括：

编写单元测试

遵循编码风格

编写接受更改参数的函数

彻底记录代码

让他人检查代码

重构代码，使其更简单、更易于阅读

对于还未工作的数据科学家，你也可以通过参与开源项目获得这些经验。除此之外，你还可以通过查看GitHub上流行库的源代码。

像软件工程师一样思考需要改变思维模式，但做到这一点并不难。例如，每当我发现自己在Jupyter Notebook中复制和粘贴代码并更改一些值时，我就会停下来，并意识到从长远的角度看用函数会更高效。