登录
首页大数据时代了解雇主对2020年数据科学家职位的期望
了解雇主对2020年数据科学家职位的期望
2022-03-30
收藏

作者Shareef Shaik,有抱负的数据科学家

最近,我积极地开始找工作,转到数据科学,我没有任何正式的教育,如硕士或博士。AI/机器学习背景。我开始学习它完全是出于我自己的兴趣(不仅仅是因为炒作)。这是一个具有挑战性的轨道选择加入,特别是如果你同时在一些其他技术上工作。我开始了我的旅程,注册了许多MOOCs(大规模开放在线课程),并开始阅读多个博客。最初,它没有意义,最终在阅读了其他人的代码并用实时数据集弄脏了我的手之后。它慢慢地开始有意义了。

当我开始找工作时,开始了一个有趣的新故事。我在印度打开了一个顶级职位门户网站,开始寻找工作,我发现很少与我正在寻找的工作相关,但当我打开其中一个时,令我惊讶的是,他们提到的要求对我来说是新的。撇开传统的数据分析、机器学习深度学习不谈,一些ETL工具和多种大数据技术被认为是必要的技能。我认为这没什么,因为现在每个公司都有自己对数据科学家的定义,并开设了另一份工作。这一次,它需要一些其他技术,如AWS、Azure和Power BI。

请记住,所有这些空缺都只标记在数据科学家下面。所有这些开放都有共同的需求,如机器学习算法、统计、数据分析、数据清洗深度学习技术。除了这些技能之外,一些公司还希望候选人具备云(AWS、Azure或GCP)和数据可视化工具(如Tableau、Power BI)以及ETL工具(如SSIS)方面的知识。通常,这些技术更多地与数据分析师/数据工程师角色有关,但数据科学家角色仍在发展,并没有真正坚持特定的技能。

我确实理解这样一个事实,即公司寻找一个适合他们空缺职位的申请人,也有他们正在寻找的技术技能。这肯定会为公司节省时间和金钱,而不是再次提供培训。

所以,这里我有了一个有趣的想法,可以理解IT行业对数据科学家角色的实时期望,而不是MOOCs中通常教授的。

目标:我们将试图找出目前行业中最需要的技能和趋势。为此,我们将从作业门户中刮取数据。

注:整个分析是为印度市场的数据科学家角色而做的。

在这篇文章中,我们将试图找到几个重要问题的答案,每个数据科学求职者都会记住这些问题。

  1. 公司正在寻找哪些顶级技能?
  2. 在这个行业中最想要的经验水平是什么?
  3. 有哪些公司正在积极提供该领域的工作?
  4. 有哪些职位空缺?

注意:您可以在结论部分找到完整代码的链接。

1.网页刮擦:


我从印度最大的求职门户网站--naukri.com收集了所有相关的求职信息,几乎每个求职者和招聘人员都使用这个网站。由于传统的BeautifulSoup方法在这个网站上不太好用,所以我使用了selenium-python来进行网页搜索。


免责声明:网上搜索纯粹是出于教育目的。

我们将为每项工作收集五个要素:角色、公司名称、经验、地点和关键技能。

刮擦代码:

[removed][removed]

2。预处理:


在我们潜入之前,让我们做一些基本的预处理。

2.1.处理丢失的值:


执行查找丢失值并删除它们的基本清理。

2.2.处理重复数据:


在处理重复数据时,我们需要非常小心,因为一个公司可能会多次发布相同的需求,因为该工作仍然空缺,另一方面,该公司可能正在寻找具有相同需求的全新空缺。为了简单起见,我没有删除任何数据。

2.3.标记位置和技能列


为了避免冗余,将所有字符串转换为小写,并标记了位置技能列,因为这些列中有多个值。

这就是它如何处理预处理。

3.分析:


现在,我们只有一切可以开始了。

3.1.哪个位置提供更多的职位空缺?:

注意:如果您不是印度人,可以跳过此地点部分。

  1. 如果我们观察上面的图,几乎有38%的作业位于Bengaluru
  2. 排名前四的城市,即孟加拉、孟买、海德拉巴浦那占该国数据科学工作岗位总数的72%。
  3. 因此,如果你来自这些城市中的任何一个,你获得数据科学家工作的机会可能比其他城市更大。

3.2.哪些公司在积极招聘?:

  1. Analytics VidhyaEducon以几乎21%位居榜首。
  2. 列表中也有许多咨询公司。这些顾问公司通常为其客户进行招聘。
  3. 总的来说,就业门户的竞争将非常激烈。大多数时候,由于收到大量的申请,你的个人资料甚至可能不会被招聘人员看到。在某些情况下,即使是一个空缺职位,你也必须与数百名其他申请人竞争。最好了解一下正在积极招聘的公司,这样我们就可以直接通过他们的官方网站申请,这样可以增加面试的几率。

3.3.最想要的体验是什么?:


  1. 我们可以观察到,公司显然在寻找有经验的候选人。似乎有更多的职位空缺给有5-10年经验的候选人。这是有道理的因为数据科学家的工作涉及到关键的决策技能,而这些技能与经验是一致的。
  2. 具有至少2年经验的候选人有相当好的机会。
  3. 这并不意味着新生进不去,只是有经验的应聘者比新生有更多的空缺。公司通常不会从这些求职门户招聘新人,他们会直接从校园招聘中招聘。新生总是可以选择为初创公司工作,以获得必要的经验。

3.4.需要哪些角色:


这是一个重要的步骤,因为在一些结果之后,工作门户通常开始显示一些与我们搜索的工作无关的其他工作。为了确保我们正在寻找正确的角色,让我们检查一下10个经常提到的角色。

  1. 如果我们在前一节中观察到,经验更丰富的人有更多的空缺,这给我们留下了一个基于角色的空缺问题。
  2. 大多数空缺仍然被称为数据科学家。其次是高级数据科学家和首席数据科学家,这当然需要良好的经验。

3.5.公司正在寻找的技能:


终于,我们到了。你读这篇文章的主要原因。

  1. 看起来很复杂吧,别担心我会在后面分解它。我之所以在情节中包含了许多技巧,是因为数据科学涉及的领域很广。
  2. 尽管我们能够在上面的情节中描绘出一些顶尖的技巧,但它仍然不能达到本文分析的目的。

让我们深入研究一下,更清楚地了解趋势。

3.5.1.必备技能?:

  1. 机器学习这是数据科学家最重要的技能。
  2. 数据挖掘数据分析是每个数据科学家必须经历的关键活动。
  1. strong统计建模需要成为更好的数据科学家。
  2. 公司期待着对深度学习的良好了解,因为它提供了解决诸如NLP计算机视觉等领域中一些有趣的实时问题的最新技术。
  3. 由于每天记录的数据量大幅增加,雇主们希望应聘者具备大数据技术的知识。在实时情况下,我们可能正在处理巨大的数据集,这些技能肯定会派上用场。

3.5.2.需求中的编程语言?:

  1. 如果您开始学习数据科学,在开始时,您肯定会发现很难选择合适的编程语言。尽管有许多语言,但竞争一直是Python和R本身之间的。让我们看看数据在告诉我们什么。
  1. 业界仍然支持Python,因为它有丰富的库,后面还有R语言。
  2. SQL是每个数据科学家的必选项。尽管它不适合被视为编程语言,但我还是冒险把它包括在这里:)。
  3. python和R之后,对SASC++语言的需求似乎很大。

3.5.3.选择深度学习框架?:

  1. 由于深度学习的异军突起,很多深度学习框架从谷歌和脸书这样的巨头进入市场。
  1. 业界支持TensorFlow而不是PyTorch
  2. Keras在市场上有很好的份额,人们喜欢它,因为它简单易用。
  3. 尽管有许多其他框架,如Caffe、Maxnet,但似乎没有太多的机会。如果不是在世界上,至少在印度。

3.5.4.哪种大数据技术有优势?


  1. Spark名列前茅。可以选择python版本的Spark-PySpark。
  2. Hadoopspark的机会几乎相同,只是稍有不同。
  3. hive也有相当大的开放空间。

3.5.5。哪个云提供商需要ML?


  1. 训练模型需要大量的计算,这很容易变得非常昂贵。公司正在寻找更便宜的方式来完成工作,这就是这些云平台出现的原因。
  2. AWS位居榜首,其次是Azure
  3. 公司正迅速转向云计算选项。在未来的日子里,这些技术有更多的机会在数据科学中发挥重要作用。

3.5.6。需要数据可视化工具吗?


  1. 雇主对tableau数据可视化表现出更多的兴趣。
  2. 而微软的电源BI仍然落后。

结论:


你真的必须具备这篇文章中提到的所有技能才能找到工作吗?

好吧,不是真的,如果你的基础很强,列表中很少有工具在工作中容易找到。话虽如此,如果你只是在找工作,在简历上写上这些技能可能会帮助你获得面试机会。

如果你具备数据科学家必须具备的所有技能,那么最好的方法应该是开始参加面试,同时努力填补你理解上的空白,学习你认为会让你比其他候选人更有优势的工具/技术。

您可以在我的GitHub上找到完整的代码。您可以通过LinkedIn连接到我。

如果你发现这有帮助或有任何问题,请让我在评论中知道。

回头见.快乐的编码…!

引用:

  1. https://medium.com/@krishnakummar/donut-chart-with-python-matplotlib-d411033c960b
  2. https://stackoverflow.com/questions/51389377/unfolding-bag-of-words-in-pandas-column-python
  3. https://www.naukri.com


数据分析咨询请扫描二维码

客服在线
立即咨询