登录
首页大数据时代我迄今为止的数据科学学习之旅
我迄今为止的数据科学学习之旅
2022-03-14
收藏

自由数据科学家Arnuld谈数据

埃里克·韦伯(是的,那个长得不错的家伙带着一只可爱的狗)最近在LinkedIn上写了一篇帖子,讲述了当他开始数据科学生涯时,他希望自己能少做的10件事。这篇文章是我通过这十点的旅程。首先,你应该继续阅读他的帖子。下面是截图:


首先,这不是一个“内容”的帖子。

已经有这么多的文章和博客帖子了,所以看看他们。在这里,我们将谈谈你的重点和方向,当你渴望成为一名数据科学家,并得到业界的关注。

1)认为我需要学习一切


是的,这需要你很多时间和精力。这个障碍是你应该马上处理的。一开始我和它作斗争,但几个月后,它就消失了。我把这个突破归因于我的日常阅读习惯。

我一直在阅读LinkedIn上的帖子(尤其是埃里克·韦伯本人的帖子)。此外,我每天读很多来自不同数据科学家和机器学习工程师的博客,读一两个小时或更多。这让我明白了数据科学在工业工作中的重要性:你用你的技能为组织增加了多少价值通过构建你感兴趣的东西或构建解决问题的东西来定义价值。你通过回答这个问题来选择学什么,它会给你一个关于什么该学什么不该学的想法。

我花了几个月才意识到这一点(我猜是6个月)。我将把这几个月加在一起,看我们可以节省多少时间。


2)为面试琐事做准备。


是的,这是另一场斗争,主要是因为以下几个原因:

  • 对于什么是数据科学家,没有一个统一的定义。对他的工作职责只有一个模糊的想法,这些职责与数据分析师或机器学习工程师有什么不同?
  • 然后是令人困惑的工作描述。由于对数据科学家没有一个令人满意的定义,你会看到这样的描述:机器学习、软件工程、Python、R、多年的统计学、微积分、线性代数、Big-O等等。看着工作描述,你觉得你需要50岁以上才能申请这些工作。

别上当。不要把工作描述放在心上。大多数“面试琐事”是数据科学的新事物与组织中人才获取、数据科学和软件工程团队之间沟通渠道不畅的结合。与其对此感到不知所措,你需要专注于如何破解它。

解决这个问题的一个方法是通过观察现实。如果你认识任何现实生活中的数据科学家、数据分析师和机器学习工程师(离线的,在物理世界中),和他们谈谈他们的工作将是一个很好的主意。如果你不认识任何人,那么你可以随时查看博客和文章。

我线下不认识这方面的专业人士。所以我通过阅读博客和文章来学习。我所了解到的是,公司会招来很多人参加面试,他们都是“懂”东西的人,但很少有“造”东西的人。因此,专注于构建材料而不是单纯的学习和教育(例如,部署和生产是两件重要的事情)。我花了5-6个月才意识到这一点。

6+6=迄今12个月

3)试图模仿别人的道路


啊哈,这是我最喜欢的:-)因为这是我浪费了大部分时间的地方:

  • Tetiana Ivanovaland6个月就找到了工作
  • 凯利·彭兰德达辞去数据分析师工作一年后的工作
  • Natassha Selvaraj找到了一份工作,她正在大学学习
  • Mikko Koskinenen根本不打算成为一名数据科学家
  • 托马斯·赫普纳觉得自己比泰坦尼克号数据还失落,一年后,他作为一名数据科学家进入了这个行业

看看我的个人资料,我在软件开发(C语言)方面有4.5年的经验,现在已经做了8个月的数据科学工作,但仍然远远没有回答这个问题:

你最喜欢的机器学习算法是什么?为什么?

是的,我同意我的情况看起来像是big-o:O(n^n)的最坏情况

我读过成百上千(不,我没有夸张)的博客帖子和文章,这些人找到了数据科学的工作,改变了行业。我追踪并模仿他们的数据科学之旅进入我的生活,从他们的思维模式到他们课程的选择,甚至他们对某些书中某些章节的选择,就像一份完美的复制品。我仍然没有回答上面的问题,因为我甚至不知道为什么我会喜欢一个机器学习算法而不是另一个。毕竟,我只是在无意识地咀嚼所有的模特,以“变得像他们一样”的名义。

两天前,我放弃了它,决定遵循我认为我应该做的事情。(令人惊讶的是,我今天看到了Eric的帖子。好像宇宙在告诉我,我走在正确的道路上,一条属于我的道路。)

我认为我们每个人都必须个性化我们的旅程。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么追踪别人的路径可能永远行不通。

所以我决定我将尝试和开创自己的道路,成为一名数据科学家。这并不是说我会停止阅读别人的旅行,我仍然会阅读,但我不会盲目地跟随他们,试图将其复制到我的生活中,我会把它们作为指南针,作为指导机制。这花了我8个月的时间。迟来总比不来好。

6+6+8=20个月


4)关注完美的解决方案。


我的计算机编程经验解决了这个问题。我花了50年的时间在这个行业做编程,写代码为我的雇主赚钱,这已经教会了我“完成”比“完美”好。发现一个人面临的问题,并建立一个解决方案,实际上是唯一重要的事情。单纯的学习和教育是不行的。

6+6+8+0=20个月

5)学习我很少使用的高级统计数据


回到2018年,我花了很多时间为数据科学学习数学和统计学。我花了4个月的时间学习:

  • 可汗学院代数一和二
  • 马里利桑那州立大学edX学院级代数与解题
  • MIT大图微积分从YouTube
  • 西尔瓦纳斯·P·汤普森使微积分变得容易。可从Gutenberg项目免费获得
  • 微积分1A:与MITat edx的微分。
  • 可汗学院微积分1中的极限和积分。
  • 阅读不同的统计学书籍以获得统计学思维方式

这是一个多么大的错误:-(.据我今天所知,我所需要的只是:

  1. 统计学基础。不是统计本身,而是机器学习和数据分析特别需要的主题
  2. 贝叶斯定理基础
  3. 线性代数基础(只有一些小东西,如矩阵乘法和转置等)
  4. 大O符号的基础(查看Outtreature Cake的解释)

是的,没有什么花哨的,只有基本的。你找到工作后能做的所有花哨的事情。在此之前,您使用Python或R库。不要像在学校或大学里那样试图学习数学公式,而是尝试使用Python中的库调用来学习如何使用它,例如使用Scipy计算t检验,并学习理解它所需的数学知识:

3.1。Python-Scipy课堂讲稿中的统计学
一个简单的线性回归给出两组观测值,x和y,我们想检验y是线性的假设...

嗯,有8-10个月:

6+6+8+0+10=30个月


6)认为R与Python的辩论只需要选择1。


我纠结于这个问题:

  1. 从R开始的数据科学比哈德利·韦翰。读了几章,然后放弃了,因为我读到Python正在工业世界中取得进展。
  2. 我从Python开始,尝试了几本书,然后我回到了R,因为ggplot看起来比matplotlib更好。
  3. 然后我又回到了Python,因为它更具有软件工程的感觉。
  4. 回到R,因为tidyverse作为一个包,在数据分析和可视化方面比Python工具成熟得多。

当我从一家公司得到一个带回家的任务时,这个问题就消失了,这家公司找我做R相关的工作。在使用R和Python完成带回家的任务后,我再也不想碰R了。根据我的经验,Python更适合于软件工程实践,而在为实际工业工作编写数据科学代码时,软件工程实践是绝对必要的。它几乎和你在做软件开发时一样。从那以后,我完全变成了Python。就我个人而言,如果我必须使用另一种语言,我会使用JuliaInstead。大约4-6个月。

6+6+8+0+10+4=34个月

7)花大量时间思考非结构化数据


这个错误是我在“数学错误”之后做的。我花了几个月的时间思考SQL与NoSQL的对比。我们看着某件事,我们从我们的观点来思考它,并认为这就是它的意思。我们都知道这是一个数据时代,每天都有数百万兆字节的数据产生。大部分都是非结构化的。我猜我应该学习NoSQL。但是几乎所有的工作描述都只提到SQL。然后我会想到做SQL


我既没有学SQL也没有学NoSQL。这就是为什么对一件事左右为难会消磨你几个月的时间。

我不再以我的方式来解释事情,而是开始关注那些获得数据科学工作的人以及他们学到了什么。他们都把SQL列为一种技能。所以我改用SQL。开始ISSQLBolt的好地方。

我不会在这里考虑任何时间浪费,因为即使我没有学到任何东西,我用这些时间来学习其他东西。所以,到目前为止的等式是:

6+6+8+0+10+4+0=34个月

8)考虑的是技术,而不是业务


这是一个你需要认真改变心态的领域,我也需要这样的改变。我的计算机编程背景使我成为一个百分之百的技术人员,他真的不知道如何不仅仅是一个团队工作者。对团队的贡献是我社交和沟通技巧的终点。

我从一开始就不知道这一点,但由于我的阅读习惯,我发现了数据科学的许多特点,使它与其他技术工作格格不入。我克服这一点的一个方法是与我认识或遇到的人谈论大数据。通过向我的朋友和其他人解释数据科学,机器学习概念。但是由于我的自由职业工作和数据科学学习需要我花很多时间在电脑前,我没有得到很多机会来锻炼这种方法。


数据科学不仅仅是编程,数据科学不仅仅是Web开发,它不仅仅是分析数据和建立模型。这是故事的一半。数据科学的另一半是能够与不太懂技术的人交流。业务利益相关者、管理层的决策者和客户是你将要与之打交道的三种不同类型的非技术人员。因此,如果我们把与人合作视为“另一项技术工作”,那么它将是一个巨大的痛苦。Bycole Nussbaumer Knaflic有一本关于交流数据洞察力的优秀书籍,书名为“用数据讲故事”。它是一种必读的书。

这还有另一面。业务问题。你所建立的模型,你所做的比较,以及你所达到的准确性,它是如何使业务受益的?你看,如果一个数据科学家不能为业务带来利润或利益或增值,他的工作就没有意义。如果你来自像我这样的技术背景,这是一件很难掌握和擅长的事情。在这种情况下,技术心态所做的是让您的注意力只集中在构建模型和分析数据上,因为这是我们所做的。我们没有业务上下文

我没有一个很好的解决办法,因为从来没有任何个人经验。所以在这里半信半疑地接受我的建议。也搜索自己。我只能阅读博客、帖子和文章来理解该做什么。我也不认识任何产品经理(我见过一两个IT服务经理,但我不知道这是否合格)。我遇到的唯一解决这个问题的方法有两个:

  1. 阅读案例研究,产品案例研究。这就是产品经理所做的。因此,如果你认识任何产品经理(甚至是项目经理),你应该和他们谈谈他们的产品/项目是如何给公司带来价值的。
  2. 读一些书,比如盖尔·拉克曼·麦克道尔·杰基(博丁)·巴瓦罗的《破解首相采访》

如果你是一名程序员或软件开发人员,不了解这一点会使你在技术技能上工作时间长而辛苦。6个月的损耗:

6+6+8+0+10+4+0+6=40个月

9)努力跟上所有的报纸


你需要避免的另一个陷阱。我在这里面陷了一段时间。我想自己写一两篇论文,但现在我的第一个重点总是“构建某个东西”。尽可能少地学习构建某个东西。

是的,所有这些文件看起来非常非常令人印象深刻,非常漂亮。论文大多是关于学术的。你正试图在这个行业找到一份工作。学术界和工业界并不匹配,除了两个可能的例外:

  1. 你正在寻找一个行业内的研究职位。在这种情况下,你的投资组合将仅限于10-20%的雇主。
  2. 你想为四大公司工作,即Facebook、亚马逊、谷歌和微软。

除了上面所说的,我看不出偏离我的重心在一个好的一级或二级公司找到一个数据科学家的职位有什么意义。别误会我的意思,我喜欢做研究。事实上,早在大学时,我就想读博士学位。在微内核研究中。研究工作需要大量的时间和精力。我认为更好的生活方式是在职业生涯中找到平衡点:在你的兴趣和市场/行业需求之间找到平衡点。避免在任何一边摔倒。


与其跟上所有的论文,一个更好的平衡学习的方法是:

  1. 使用Pandas学习数据清理的基本知识(Kaggle datasets已经为你完成了90%的工作。在现实生活中,你必须完成所有的清理。学习刮擦一些数据并清理它)
  2. 学习机器学习建模的基础知识,以及为什么我们选择一个模型而不是另一个模型。什么样的模型适合什么样的领域问题,例如医疗保健与财务
  3. 了解如何将模型部署到生产中(您将了解使用EstrealmLit、Heroku和Voila时实际工作的感受。我在这里使用Voila实现了熊检测模型。)

6+6+8+0+10+4+0+6+10=50个月

10)相信做某事只有一种方法


这个很大。我想我一辈子都在为此挣扎。有些人有,有些人没有。我倾向于说,也许聪明人没有这个问题(我见过或读到的聪明人,他们没有)。像我这样的人一辈子都在努力战胜它。这是个监狱,相信我。带着“做某事只有一种方法”的心态生活是相当令人沮丧的。如果你看现实生活中的故事,想法没有任何限制。


这更多的是个人发展的障碍,而不是技术上的障碍,因为无论你在哪个领域工作,这一个都会出现,它绝对与技术无关。我还在努力。到目前为止,我找到的一个解决办法是,当我在某个问题上找不到路时,如果是晚上,我会下机器去散步;如果不是晚上,我会读一本完全无关的书(一些非小说类的书),或者骑摩托车,完全忘记这个问题。然后我会回来,试着从不同的文章或博客文章中学习同样的东西,而不是提到我被困的原点。只是从别人的角度看待同样的问题。

我不能给这个规定任何时间限制。我一生都在为这个奋斗:

6+6+8+0+10+4+0+6+10+寿命=50+寿命

所以,我浪费了将近50个月?

不是真的。

当谈到我浪费时间的地方时,所有这些观点都相互重叠。实际上是12个月。2019年12月至2020年11月。在开始的几个月里,我甚至不知道我需要做什么。事情直到今年2020年3月才开始有意义。我想如果事情对我来说更清楚,我可以节省4-6个月的时间,但这只是一个疯狂的猜测,一些真正聪明的人告诉我:需要任何时间来打破障碍。让我再重复一遍:

我们每个人都有一次个人数据科学之旅。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么也许追踪别人的道路永远行不通。这就是为什么你需要不断推动自己学习你能学到的东西,让自己了解这个行业正在发生的事情,并不断纠正你的道路(就像我们智能手机上的地图等应用程序不断纠正我们并指明方向)

奖金--你的精神面貌


我试图学习神经网络,然后才能理解逻辑回归线性回归更适合什么样的问题。在机器学习有任何意义之前,我就在做深度学习。就我而言,这是因为:

  1. 媒体--炒作AI和深度学习
  2. 我专注于建造一些伟大的、真正令人印象深刻的东西
  3. 假设每个人都在做这件事,如果我想找到一份工作,我需要做得比他们更好。毕竟市场竞争如此激烈。
  4. 聚焦四大
  5. 我对医疗保健数据和Codershas医学影像诊断章节的实用深度学习感兴趣。你可以在这里看到一个例子。

深度学习和AI在媒体中无处不在。我们倾向于认为我们需要比其他人更好,而其他人已经在写高度数学化的博客文章,用他们华而不实的公式和大量代码。不相信我?检查一下这个。当这样的人已经掌握了深度学习和数据科学,谁会接近我们?

是啊,这太常见了,他们给它起了个名字。它被称为“冒名顶替综合症”。去读一下吧。我以为我唯一一个受折磨的人。但后来我意识到这很常见。是的,市场是竞争的,由于目前的流行病,许多人失去了工作。我在领英上看到过几个数据科学家和机器学习工程师失业的帖子。我见过他们甚至恳求“喜欢和分享”他们正在找工作。看到这一点令人心碎。每个人都值得过上好日子。


让我们看看积极的一面,这场流行病扰乱了世界,它使许多企业陷入停顿,而一些企业的客户端数量飙升(播客和视频会议服务就是其中之一)。在这样一个混乱的时代,我们需要更好地承受痛苦和苦难,并找到加强我们决心的方法。我相信我们出生在某一年不是偶然的,这就是我们在这场流行病中的原因。我认为我们应该从中吸取教训,我们应该在这些时代创造更好的生活。我祝你在数据科学的学习之旅中好运,我希望我们继续相互学习,使自己变得更好。


数据分析咨询请扫描二维码

客服在线
立即咨询