京公网安备 11010802034615号
经营许可证编号:京B2-20210330
自由数据科学家Arnuld谈数据
埃里克·韦伯(是的,那个长得不错的家伙带着一只可爱的狗)最近在LinkedIn上写了一篇帖子,讲述了当他开始数据科学生涯时,他希望自己能少做的10件事。这篇文章是我通过这十点的旅程。首先,你应该继续阅读他的帖子。下面是截图:
首先,这不是一个“内容”的帖子。
已经有这么多的文章和博客帖子了,所以看看他们。在这里,我们将谈谈你的重点和方向,当你渴望成为一名数据科学家,并得到业界的关注。
是的,这需要你很多时间和精力。这个障碍是你应该马上处理的。一开始我和它作斗争,但几个月后,它就消失了。我把这个突破归因于我的日常阅读习惯。
我一直在阅读LinkedIn上的帖子(尤其是埃里克·韦伯本人的帖子)。此外,我每天读很多来自不同数据科学家和机器学习工程师的博客,读一两个小时或更多。这让我明白了数据科学在工业工作中的重要性:你用你的技能为组织增加了多少价值。通过构建你感兴趣的东西或构建解决问题的东西来定义价值。你通过回答这个问题来选择学什么,它会给你一个关于什么该学什么不该学的想法。
我花了几个月才意识到这一点(我猜是6个月)。我将把这几个月加在一起,看我们可以节省多少时间。
是的,这是另一场斗争,主要是因为以下几个原因:
别上当。不要把工作描述放在心上。大多数“面试琐事”是数据科学的新事物与组织中人才获取、数据科学和软件工程团队之间沟通渠道不畅的结合。与其对此感到不知所措,你需要专注于如何破解它。
解决这个问题的一个方法是通过观察现实。如果你认识任何现实生活中的数据科学家、数据分析师和机器学习工程师(离线的,在物理世界中),和他们谈谈他们的工作将是一个很好的主意。如果你不认识任何人,那么你可以随时查看博客和文章。
我线下不认识这方面的专业人士。所以我通过阅读博客和文章来学习。我所了解到的是,公司会招来很多人参加面试,他们都是“懂”东西的人,但很少有“造”东西的人。因此,专注于构建材料而不是单纯的学习和教育(例如,部署和生产是两件重要的事情)。我花了5-6个月才意识到这一点。
6+6=迄今12个月
啊哈,这是我最喜欢的:-)因为这是我浪费了大部分时间的地方:
看看我的个人资料,我在软件开发(C语言)方面有4.5年的经验,现在已经做了8个月的数据科学工作,但仍然远远没有回答这个问题:
你最喜欢的机器学习算法是什么?为什么?
是的,我同意我的情况看起来像是big-o:O(n^n)的最坏情况
我读过成百上千(不,我没有夸张)的博客帖子和文章,这些人找到了数据科学的工作,改变了行业。我追踪并模仿他们的数据科学之旅进入我的生活,从他们的思维模式到他们课程的选择,甚至他们对某些书中某些章节的选择,就像一份完美的复制品。我仍然没有回答上面的问题,因为我甚至不知道为什么我会喜欢一个机器学习算法而不是另一个。毕竟,我只是在无意识地咀嚼所有的模特,以“变得像他们一样”的名义。
两天前,我放弃了它,决定遵循我认为我应该做的事情。(令人惊讶的是,我今天看到了Eric的帖子。好像宇宙在告诉我,我走在正确的道路上,一条属于我的道路。)
我认为我们每个人都必须个性化我们的旅程。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么追踪别人的路径可能永远行不通。
所以我决定我将尝试和开创自己的道路,成为一名数据科学家。这并不是说我会停止阅读别人的旅行,我仍然会阅读,但我不会盲目地跟随他们,试图将其复制到我的生活中,我会把它们作为指南针,作为指导机制。这花了我8个月的时间。迟来总比不来好。
6+6+8=20个月
我的计算机编程经验解决了这个问题。我花了50年的时间在这个行业做编程,写代码为我的雇主赚钱,这已经教会了我“完成”比“完美”好。发现一个人面临的问题,并建立一个解决方案,实际上是唯一重要的事情。单纯的学习和教育是不行的。
6+6+8+0=20个月
回到2018年,我花了很多时间为数据科学学习数学和统计学。我花了4个月的时间学习:
这是一个多么大的错误:-(.据我今天所知,我所需要的只是:
是的,没有什么花哨的,只有基本的。你找到工作后能做的所有花哨的事情。在此之前,您使用Python或R库。不要像在学校或大学里那样试图学习数学公式,而是尝试使用Python中的库调用来学习如何使用它,例如使用Scipy计算t检验,并学习理解它所需的数学知识:
3.1。Python-Scipy课堂讲稿中的统计学
一个简单的线性回归给出两组观测值,x和y,我们想检验y是线性的假设...
嗯,有8-10个月:
6+6+8+0+10=30个月
我纠结于这个问题:
当我从一家公司得到一个带回家的任务时,这个问题就消失了,这家公司找我做R相关的工作。在使用R和Python完成带回家的任务后,我再也不想碰R了。根据我的经验,Python更适合于软件工程实践,而在为实际工业工作编写数据科学代码时,软件工程实践是绝对必要的。它几乎和你在做软件开发时一样。从那以后,我完全变成了Python。就我个人而言,如果我必须使用另一种语言,我会使用JuliaInstead。大约4-6个月。
6+6+8+0+10+4=34个月
这个错误是我在“数学错误”之后做的。我花了几个月的时间思考SQL与NoSQL的对比。我们看着某件事,我们从我们的观点来思考它,并认为这就是它的意思。我们都知道这是一个数据时代,每天都有数百万兆字节的数据产生。大部分都是非结构化的。我猜我应该学习NoSQL。但是几乎所有的工作描述都只提到SQL。然后我会想到做SQL。
我既没有学SQL也没有学NoSQL。这就是为什么对一件事左右为难会消磨你几个月的时间。
我不再以我的方式来解释事情,而是开始关注那些获得数据科学工作的人以及他们学到了什么。他们都把SQL列为一种技能。所以我改用SQL。开始ISSQLBolt的好地方。
我不会在这里考虑任何时间浪费,因为即使我没有学到任何东西,我用这些时间来学习其他东西。所以,到目前为止的等式是:
6+6+8+0+10+4+0=34个月
这是一个你需要认真改变心态的领域,我也需要这样的改变。我的计算机编程背景使我成为一个百分之百的技术人员,他真的不知道如何不仅仅是一个团队工作者。对团队的贡献是我社交和沟通技巧的终点。
我从一开始就不知道这一点,但由于我的阅读习惯,我发现了数据科学的许多特点,使它与其他技术工作格格不入。我克服这一点的一个方法是与我认识或遇到的人谈论大数据。通过向我的朋友和其他人解释数据科学,机器学习概念。但是由于我的自由职业工作和数据科学学习需要我花很多时间在电脑前,我没有得到很多机会来锻炼这种方法。
数据科学不仅仅是编程,数据科学不仅仅是Web开发,它不仅仅是分析数据和建立模型。这是故事的一半。数据科学的另一半是能够与不太懂技术的人交流。业务利益相关者、管理层的决策者和客户是你将要与之打交道的三种不同类型的非技术人员。因此,如果我们把与人合作视为“另一项技术工作”,那么它将是一个巨大的痛苦。Bycole Nussbaumer Knaflic有一本关于交流数据洞察力的优秀书籍,书名为“用数据讲故事”。它是一种必读的书。
这还有另一面。业务问题。你所建立的模型,你所做的比较,以及你所达到的准确性,它是如何使业务受益的?你看,如果一个数据科学家不能为业务带来利润或利益或增值,他的工作就没有意义。如果你来自像我这样的技术背景,这是一件很难掌握和擅长的事情。在这种情况下,技术心态所做的是让您的注意力只集中在构建模型和分析数据上,因为这是我们所做的。我们没有业务上下文。
我没有一个很好的解决办法,因为从来没有任何个人经验。所以在这里半信半疑地接受我的建议。也搜索自己。我只能阅读博客、帖子和文章来理解该做什么。我也不认识任何产品经理(我见过一两个IT服务经理,但我不知道这是否合格)。我遇到的唯一解决这个问题的方法有两个:
如果你是一名程序员或软件开发人员,不了解这一点会使你在技术技能上工作时间长而辛苦。6个月的损耗:
6+6+8+0+10+4+0+6=40个月
你需要避免的另一个陷阱。我在这里面陷了一段时间。我想自己写一两篇论文,但现在我的第一个重点总是“构建某个东西”。尽可能少地学习构建某个东西。
是的,所有这些文件看起来非常非常令人印象深刻,非常漂亮。论文大多是关于学术的。你正试图在这个行业找到一份工作。学术界和工业界并不匹配,除了两个可能的例外:
除了上面所说的,我看不出偏离我的重心在一个好的一级或二级公司找到一个数据科学家的职位有什么意义。别误会我的意思,我喜欢做研究。事实上,早在大学时,我就想读博士学位。在微内核研究中。研究工作需要大量的时间和精力。我认为更好的生活方式是在职业生涯中找到平衡点:在你的兴趣和市场/行业需求之间找到平衡点。避免在任何一边摔倒。
与其跟上所有的论文,一个更好的平衡学习的方法是:
6+6+8+0+10+4+0+6+10=50个月
这个很大。我想我一辈子都在为此挣扎。有些人有,有些人没有。我倾向于说,也许聪明人没有这个问题(我见过或读到的聪明人,他们没有)。像我这样的人一辈子都在努力战胜它。这是个监狱,相信我。带着“做某事只有一种方法”的心态生活是相当令人沮丧的。如果你看现实生活中的故事,想法没有任何限制。
这更多的是个人发展的障碍,而不是技术上的障碍,因为无论你在哪个领域工作,这一个都会出现,它绝对与技术无关。我还在努力。到目前为止,我找到的一个解决办法是,当我在某个问题上找不到路时,如果是晚上,我会下机器去散步;如果不是晚上,我会读一本完全无关的书(一些非小说类的书),或者骑摩托车,完全忘记这个问题。然后我会回来,试着从不同的文章或博客文章中学习同样的东西,而不是提到我被困的原点。只是从别人的角度看待同样的问题。
我不能给这个规定任何时间限制。我一生都在为这个奋斗:
6+6+8+0+10+4+0+6+10+寿命=50+寿命
所以,我浪费了将近50个月?
不是真的。
当谈到我浪费时间的地方时,所有这些观点都相互重叠。实际上是12个月。2019年12月至2020年11月。在开始的几个月里,我甚至不知道我需要做什么。事情直到今年2020年3月才开始有意义。我想如果事情对我来说更清楚,我可以节省4-6个月的时间,但这只是一个疯狂的猜测,一些真正聪明的人告诉我:需要任何时间来打破障碍。让我再重复一遍:
我们每个人都有一次个人数据科学之旅。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么也许追踪别人的道路永远行不通。这就是为什么你需要不断推动自己学习你能学到的东西,让自己了解这个行业正在发生的事情,并不断纠正你的道路(就像我们智能手机上的地图等应用程序不断纠正我们并指明方向)
我试图学习神经网络,然后才能理解逻辑回归比线性回归更适合什么样的问题。在机器学习有任何意义之前,我就在做深度学习。就我而言,这是因为:
深度学习和AI在媒体中无处不在。我们倾向于认为我们需要比其他人更好,而其他人已经在写高度数学化的博客文章,用他们华而不实的公式和大量代码。不相信我?检查一下这个。当这样的人已经掌握了深度学习和数据科学,谁会接近我们?
是啊,这太常见了,他们给它起了个名字。它被称为“冒名顶替综合症”。去读一下吧。我以为我唯一一个受折磨的人。但后来我意识到这很常见。是的,市场是竞争的,由于目前的流行病,许多人失去了工作。我在领英上看到过几个数据科学家和机器学习工程师失业的帖子。我见过他们甚至恳求“喜欢和分享”他们正在找工作。看到这一点令人心碎。每个人都值得过上好日子。
让我们看看积极的一面,这场流行病扰乱了世界,它使许多企业陷入停顿,而一些企业的客户端数量飙升(播客和视频会议服务就是其中之一)。在这样一个混乱的时代,我们需要更好地承受痛苦和苦难,并找到加强我们决心的方法。我相信我们出生在某一年不是偶然的,这就是我们在这场流行病中的原因。我认为我们应该从中吸取教训,我们应该在这些时代创造更好的生活。我祝你在数据科学的学习之旅中好运,我希望我们继续相互学习,使自己变得更好。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
尊敬的考生: 您好! 我们诚挚通知您,CDA Level III 考试大纲将于 2025 年 12 月 31 日实施重大更新,并正式启用,2026年3月考 ...
2025-12-31“字如其人”的传统认知,让不少“手残党”在需要签名的场景中倍感尴尬——商务签约时的签名歪歪扭扭,朋友聚会的签名墙不敢落笔 ...
2025-12-31在多元统计分析的因子分析中,“得分系数”是连接原始观测指标与潜在因子的关键纽带,其核心作用是将多个相关性较高的原始指标, ...
2025-12-31对CDA(Certified Data Analyst)数据分析师而言,高质量的数据是开展后续分析、挖掘业务价值的基础,而数据采集作为数据链路的 ...
2025-12-31在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24