登录
首页精彩阅读如何获得你的第一份数据科学领域的工作?
如何获得你的第一份数据科学领域的工作?
2017-04-11
收藏


一. 对数据科学家而言,最重要的技能和工具是什么?如何获得?


在 90% 的情况下,在大学中所学的技能对于实际中的数据科学项目并不是很有用。在实际项目中,起码需要掌握以下四种编程技术:
bash / 命令行
Python
SQL
R
(有时候还可能会用到 Java )

很多情况下具体取决于公司使用哪两种或三种编程技术。但是,一旦你掌握了其中一种,那么学习其他语言则会更加容易。
 
所以第一个问题是:如何获得这些工具? 好消息就是所有这些工具都是免费的。这意味着,这些软件支持免费下载,安装和使用。那么你可以做好练习,完成数据项目。

二. 如何学习?

学习数据科学有两个主要方式——且都高效低成本。

1. 通过书本。
 
通过书本学习编程很传统,但仍然是一个很好的学习方式。通过这种方式你可以很专注,从书中可以得到非常详细的数据分析,统计,数据编码等知识。我重点推荐以下七本书,并且建议按此顺序阅读。

1. 《Lean Analytics》—— 作者 Croll,Yoskovitz
第一本要阅读的书是关于使用数据的基本业务心态。看起来本书适用于创业公司,但我觉得这不止于此。从中你将学习到选择一个关键的指标至关重要,以及了解 6 个基本的业务类型。
 
2.《Business value in the ocean of data》—— 作者 Fajszi,Cser,Fehér
如果《Lean Analytics》是关于创业公司的业务和数据,这本书则阐述了大型企业的商业和数据。当中有许多实用知识,例如,保险公司如何使用预测分析;银行面临哪些数据问题等等。
 
3. 《Naked Statistics》 —— 作者 Charles Wheelan
这本书不仅仅适合数据科学家。同时当中阐述了统计思维的基础,本书当中有很多故事,你将会了解到如何不被“如何通过改变一个字来提高我们的 1300% 转换率”等标题所蒙蔽。
 
4. 《Doing Data Science 》—— 作者  Schutt,O'Neil
这本书能够把你在前 3 本书中学到的东西提升到一个全新的水平。包含的内容更深入主题,包括从回归模型,垃圾邮件过滤,推荐引擎甚至到大数据。
 
5.《Data Science at the Command Line》 —— 作者 Janssens
我一直建议大家学习些基本编程知识,从而你能够更灵活地获取,清除,转换和分析数据。这能够扩展你数据科学的机会。并且我建议可以从命令行开始。本书是我看过的唯一一本关于数据科学和命令行的书,且这本书足以涵盖所有内容。
 
6. 《Python for Data Analysis》——作者 McKinney
推荐学习的第二种数据语言是 Python 。 Python 并不难,且被广泛使用。你几乎可以通过 Python 做所有事情,从分析,预测甚至到机器学习。这是一本很厚的书(超过 400 页),但涵盖了所有 Python 相关内容。
 
7.《I heart logs》—— 作者 Jay Kreps
最后推荐的这本书只有 60 页,但非常具有技术性。本书很全面的阐述了数据采集和处理的技术背景。可能作为分析师或数据科学家,你不会直接用到这些知识,但至少你会了解到公司的数据基础设施专家的做法。

2. 通过在线研讨会和视频课程。
 

数据科学在线课程通常不是很贵。而内容涵盖从数据编码到商业智能的各种主题。


三. 如何练习,如何获得实际操作经验?

这个问题有些棘手。每个公司都希望聘请有一定实际项目经验的人。如果你需要实际项目经验来获得你的第一份工作,那么该怎么做呢?答案是: pet projects 。
 
“ Pet project ”指的是你偶然提出了一个令人兴奋的数据项目的想法。

然后你开始构建它。可以将其视为小型创业项目,但请确保专注于该项目的数据科学部分,可以忽略业务部分。在这里列出了我过去几年的一些 pet projects :

我曾建立了一个监控房地产网站的脚本,会通过电子邮件向我发送最佳的实时交易——从而让我在其他人之前获得这些交易。

我还建立过一个脚本,它能够搜集出 ABC , BBC 和 CNN 当中针对同一主题的所有文章,从中可以看出针对同一事件 3 个不同新闻门户的文章的差异。

我通过 Python 构建了能够自主学习的聊天机器人。 (因为还没接受过系统训练,它还不太聪明 )

记住要有创意!找到一个数据科学相关的 pet project ,并开始编码!如果您遇到问题,当开始学习新的数据语言时,很容易遇到各种问题,这时只需用 google 或 stackoverflow ,可以解决大部分问题。下图可以清楚地看到 stackoverflow 多么好用。

注意时间戳! 当我提问了一个十分复杂的问题,在 7 分钟内就得到了解答。之后我只需要将代码复制到我的代码即可。
 
建议:
 
建议最好找一位导师带领自己。如果你幸运的话,你会找到一个在公司担任数据科学家的角色的人,且他能够每周或每两个星期抽出一个小时和你讨论问题、指导你编程。

四. 如何投递第一份求职简历?

如果没有找到导师,你仍然可以在你的第一家公司找到导师。这将是你第一个数据科学相关工作,所以我建议不要专注于高薪或高大上的办公环境。应该专注于寻找一个在那里你可以学习进步的地方。
 
对于第一份数据科学的工作,跨国公司可能不太适合。因为那里的人通常太忙,几乎没有时间和动机来帮助你(当然总是有例外)。

作为团队中的第一个数据人员加入一个小的创业公司,可能也并不是一个好主意,因为这些公司缺乏值得学习的高级数据人员。
 
建议找一家 50-500 人规模的公司。这样的公司不仅有高级数据科学家,而且他们有一定的精力来帮助你和教你。
 
好了,你已经确定了一些理想的公司,那么如何投简历呢?简历中需要注意:突出你的技能和项目,而不是你的经验。列出你掌握的编程语言,可以附上些你的相关 github 链接,以便证明你真的掌握了该语言。

在大多数情况下,一些公司也要求求职信。这是一个很好的机会来表达你对工作的热情,同时你可以添加一些实际的细节,例如如果被雇用你会在头几个星期做些什么。(例如,我认为这个____页面起了很大的作用,在我的头几个星期,我会做出___,___和___等的具体研究来证明这个假设,并深入了解它。从而帮助公司改善_____并最终推动_____ KPI 。)
 
希望这能够让你得到面试机会,面试时你可以聊聊你的 pet project ,你的求职信。但面试主要是测试你是否适合这份工作,以及一些基本的技能测试。相信有足够的准备,你就能够通过。

结论

我知道这听起来容易,做起来难。但如果你真的决心成为数据科学家,没有什么困难会阻止你的。祝你好运!

数据分析咨询请扫描二维码

客服在线
立即咨询