登录
首页大数据时代你如何将自己与数百名其他数据科学考生区分开来?
你如何将自己与数百名其他数据科学考生区分开来?
2022-02-28
收藏

为什么要费心区分自己呢?


因为有大量的竞争来获得数据科学家的工作。

找一份数据科学工作比以往任何时候都更难--如何将它转化为你的优势-kdnuggets
尽管许多有抱负的数据科学家发现,找到一份工作变得比以前更加困难…

因为有一种疯狂的冲动。每一种工程师、科学家和工作人员都称自己为数据科学家。

为什么有这么多“冒牌”数据科学家?
你有没有注意到有多少人突然自称为数据科学家?你的邻居,你在一个…
遇到的女孩

因为你不确定你能不能在这里面切牙。请记住,冒名顶替综合症在数据科学中非常活跃。

如何管理数据科学中的冒名顶替综合症
如果他们发现你一无所知怎么办?

我可以继续,但你明白…

那么,你如何将自己与群众区分开来呢?我不知道你是否可以,但我可以告诉你几个指针来测试你自己。这就是这篇文章的内容。

问自己几个简单的问题



问自己几个问题,数数是的答案的数量。你越做这些,就越脱离群众。

如果你是初学者

  • 您是否发布了您自己的Python/R(无论您在其中编码)
  • 如果是,您是否编写了大量的文档以便于其他人使用?
  • 您是否已将您的分析从Jupyter笔记本转移到完整发布的Web应用程序上?或者,你有没有调查过帮助你轻松做到这一点的工具?
  • 你是否至少写了几篇高质量、详细的文章描述你的爱好项目?
  • 您是否尝试练习Feynman学习方法。“向六年级的学生教授您想要学习的概念”?

在稍高级的阶段


If you are not a beginner but consider yourself to be at a somewhat mature stage as a data scientist, do you do these?

  • 您是否有意识地尝试利用每一个机会在数据科学代码中集成优秀的软件工程实践(例如,面向对象编程、模块化、单元测试)?
  • 你是否认为不要停留在你必须做的即时数据分析的范围内,而是想象一下,如果做出错误的预测,数据量增加100倍,成本增加10倍,会发生什么?换句话说,您是否有意识地考虑数据或问题扩展及其影响
  • 您是否认为不要停留在传统的ML度量标准上,还要考虑数据获取的成本ML业务价值

构建工具和创建文档:需要具备的两项重要技能



不要把你所有的时间和精力都花在分析更大的数据集或实验最新的深度学习模型上。

留出至少25%的时间来学习做一两件在任何地方、任何组织、任何情况下都很有价值的事情

  • 为日常数据分析构建小型但重点突出的实用工具工具。你的创造力将在这个练习中自由流动。你正在创造的东西可能没有成千上万的即时用户,但它将是新颖的,它将是你自己的创造。
  • 阅读并创建与新工具或框架或刚刚构建的实用工具相关的高质量文档(参见上面)。这将迫使你学习如何以一种让广大观众理解的方式来交流你的创作的效用和机制。

正如您所看到的,这些习惯相当容易养成和实践,即它们不需要繁重的工作、多年的统计学背景或深度机器学习知识方面的高级专业知识。

但是,令人惊讶的是,并不是每个人都接受它们。而且,那是你脱颖而出的机会。

如何在面试中利用这些习惯?



想象一下你在面试中的样子。如果你对上面的问题有很多肯定的答案,你可以向你的面试官提到,

  • 嘿,看看我为随意生成合成时间序列数据而构建的酷Python包”。
  • 我还写了一个详细的文档,托管在myapp.readthedocs.io网站上。它是用Sphinx和Jekyl构建的“。
  • 我定期为朝向数据科学的最大在线平台撰写数据科学文章。基于这些,我甚至从Packt或Springer等知名出版商那里得到了一份图书出版报价“。
  • 每个人都可以在Jupyter笔记本上安装ML模型。但是,我可以开发出一个基本的Scikit-learn函数的web应用程序演示,您可以通过REST API发送数据并返回预测“。
  • 我可以帮助对一个新的机器学习程序进行成本效益分析,并告诉你效益是否超过数据收集的努力,以及如何最优地做到这一点”。

想象一下,你在面试委员会面前的声音会与其他应聘者有多大的不同,这些应聘者在常规的统计和梯度下降问题上表现出色,但没有提供全面能力的证明。

它们表明您对数据科学问题好奇

它们表明你阅读,你分析,你交流。您创建文档供其他人创建。

它们表明,您的思考超越了笔记本和分类准确性,而达到了业务增值和客户同理心的领域。哪家公司不会喜欢这样的应聘者?


… these habits are fairly easy to develop and practice i.e. they do not need backbreaking work, years-long background in statistics, or advanced expertise in deep machine learning knowledge. 但是,令人惊讶的是,并不是每个人都接受它们。而且,那是你脱颖而出的机会。


我在哪里可以得到帮助?


有这么多伟大的工具和资源来帮助你练习。在一篇小文章的篇幅里,甚至不可能列出其中的一小部分。我只是展示一些有代表性的例子。关键的想法是沿着这些思路探索,并为自己发现帮助艾滋病。

只使用Jupyter笔记本构建可安装的软件包

nbdev:使用Jupyter笔记本实现所有功能

如何制作出色的Python包-一步一步

2021年如何制作一个超赞的Python包

了解如何在自己的ML模型和模块开发中集成单元测试原则

Pytest for Machine Learning-一个简单的基于示例的教程

了解如何在数据科学任务中集成面向对象编程原则

面向数据科学家的面向对象编程:构建您的ML估计器

使用简单的Python脚本构建交互式web应用程序-不需要HTML/CSS知识

PyWeBio:使用Python以脚本方式编写交互式Web应用程序

直接从Jupyter笔记本上写出完整的编程和技术书籍。也可将此用于文档构建。

带有Jupyter的书籍

理解实际分析问题的多方面复杂性,以及它不仅仅是建模和预测

为什么业务分析问题需要您的所有数据科学技能


想象一下,你在面试委员会面前的声音会与其他应聘者有多大的不同,这些应聘者在常规的统计和梯度下降问题上表现出色,但没有提供全面能力的证明。


关于MOOCs/在线课程的几件事


学习时不要跳台阶。跟着步骤走。

一有机会就阅读板上的主题和书籍


不要只专注于阅读最新的深度学习技巧或关于最新Python库的博客文章。在每一个机会,阅读该行业的顶级论坛和好书的董事会主题。我喜欢的一些书籍和论坛如下,

摘要


随着越来越多的企业采用和接受这些变革性技术,数据科学以及机器学习和人工智能的相关技能目前在就业市场上的需求非常高。人才的需求和供给双方之间存在着大量的竞争和沟通不畅。

一个亟待解决的问题是:如何从一百个共同申请者中区分自己?

我们列出了一些关键问题,你可以问自己,并评估你在一些技能和习惯上的独特性,这些技能和习惯使你与众不同。我们展示了一些想象中的对话片段,你可以在面试板上展示这些技能和习惯。我们还提供了一份资源的入围名单,以帮助您开始这些。

我们列出了几种参加MOOCs的方法,并建议阅读参考资料。

祝你在你的数据科学之旅中一切顺利…

您可以查看作者的GitHub存储库以获取机器学习和数据科学方面的代码、思想和资源。如果你和我一样,对人工智能/机器学习/数据科学充满热情,请在LinkedIn上添加我或在Twitter上关注我。


数据分析咨询请扫描二维码

客服在线
立即咨询