
作者 | Mohammad Shahebaz
来源 | 图灵TOPIA
本文作者Shahebaz,毕业于JNTUH大学电子与通信工程学院。他最近在Kaggle比赛中获得了4枚银牌和1枚金牌奖牌,并且拥有31 枚讨论金牌,他现在是其所在国家(印度)最年轻(21岁)的Kaggle X2 Master。
他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之旅的。所以,近期他在Medium上撰文分享了自己的成长经验。
他表示,刚开始的时候,自己也是个菜鸟,对很多知识并不是很擅长;并且,数学也从来不是自己最喜欢的科目。然而,今天他却很热爱这个领域。。。
以下是文章具体内容:
少有人走的路
我是最近才开始参加比赛的,并且在过去的9个月中,在各种比赛中赢得了一堆奖牌。这听起来是不是挺神奇的?
我曾经特别害怕参加Kaggle比赛,因为 - 觉得它们很难!
那么,这一切是从什么时候开始改变的呢?
2017年,作为Oppia.org的会员和活跃撰稿人,为了更好地工作,我开始学习Python 2.7。
后来我学会了所谓的“过时”的 Python2.7版本,但是又不得不重新学习Python 3。
我几乎无法创建列表或add/join字符串,那时我也只是一名新手程序员。
我在开源贡献期间学习了编程,使用git进行软件版本控制,以及意识到了良好结构和文档化代码的重要性。
有一天,我正在搜索Python 2.7还能做什么的时候,浏览了一下互联网并登陆了Kaggle。著名的Kaggle 声明(statement)正盯着我,读完问题声明后,我惊奇地盯着屏幕。
“在这次挑战中,我们要求您完成对哪些人可能存活的分析”
当我读到这个。我感觉到了像追星族般的惊奇。预测幸存的人?这是什么样的黑魔法?我甚至立刻检查了Kaggle网站的真实性,第二个惊奇的时刻就是我意识到 -
数据科学听起来像是21世纪非常真实的科幻技术!
就像一部科幻电影突然在我的现实生活中出现,它的概念对我来说完全陌生。
我决定让自己进入这个领域。而对数据科学学习的热情一直在我身上保持。(老实说,即使今天也没有任何消减)
我是如何学习的?推荐资源!
▲选择的悖论——越多越少
如今,网上有很多课程。通过谷歌搜索 - “如何成为数据科学家” ,你就会得到许多结果,也就很容易陷入选择的悖论。这种感觉就像在餐馆里从琳琅满目的选择中选择一道美味的开胃菜。就本文的范围而言,我将列出我最喜欢的几本书。
Python推荐
如果您使用Python编写代码并且您的技能处于中间水平,则本书应该放在您的书架上。
《Python的数据结构和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰写。
▲《Python中的数据结构和算法》
本书深入探讨了Python中的OOP,数据结构和算法的概念。我喜欢本章每一节的练习。在制作需要优化和格式化编码的车库项目时,我仍然将其用于日常参考。
着手机器学习基础知识
结束Python基础知识之后。我买了几本关于机器学习的书,我推荐这本书;
▲《用Python学习机器学习》
《用Python学习机器学习》,作者是Andreas C. Müllerand Sarah Guido
它涉及机器学习的基础知识,由scikit-learn的创始人自己编写,它是一本完整的初学者入门书。
读这本书让我非常熟悉scikit-learn,我最终还在官方的scikit-learn存储库中推了几个PR。
但是,如果您熟悉数据科学并已进入任何机器学习竞赛的前20%,您会发现上述的书挺无聊的。但是,如果你仔细阅读,肯定有一些方便的技巧和方法可以帮助你在比赛中获得优势。
另一本比MOOC更值得推荐的书是《Introduction to Statistical Learning with Applications in R》
如果我是一名面试官,我会找一个在理论和实践中理解ISLR的人。
▲《ISLR》
这本书是关于R语言的。但是,我仍然十分推荐它。
通常在研究背景下,对于想要深入挖掘并达到统计核心的人来说,《统计学习的要素》是非常推荐的一本书。ISLR和ESL这两本书都是可以免费下载的。因此,您不必破费,就可以获得免费的机器学习知识。
▲《统计学习的要素》
人们经常问我 - 你学习机器学习的MOOC是什么?
答案是None。
我发现在线课程没有效果。至少,我注册的那些没有效果。有以下几个原因:
这并不意味着我讨厌MOOC。事实上,我计划在今年完成一些工作。我建议你把基础打牢,而不是专注于观看只针对单一课程的视频内容。阅读书籍和资源肯定扩展了我对某些概念的认识,我现在可以从不同的角度来解释这些概念。
初学者的生活
我经常在LinkedIn上收到想要从事数据科学的人发来的信息。但痛苦的现实是,根据你之前所做的,学习曲线并不陡峭。我会让你从我的经历中走出来。
这是我当时的问题:
1、如何开始使用数据科学?
2、我完成了一堆算法。接下来做什么?
3、如何找到工作并搞定数据科学面试?
4、做Kaggle值得吗?比赛会有所作为吗?
我非常渴望得到这些问题的答案!
现在,我已经通过了系统的学习,可以用一句话回答你:事情没那么简单,这很复杂。
部分原因是术语—数据分析师、数据科学家和ML工程师是三个不同的头衔。这份工作的性质因公司而异。
数据分析师有时只能执行SQL查询,或者构建模型或进行业务分析。有时他们也会成为项目经理。
数据科学家有时制作基本模型,其他角色需要博士学位。研究工作和很少的其他工作需要在大型系统上进行模型调优和部署。
ML Engineer是融合了数据科学知识的软件工程专业知识
问题是……
您的梦想数据科学工作没有固定的职位描述。
许多公司仍在搞清楚“究竟什么属于数据科学,应该关注哪些问题”。在这种情况下,你的学习必须是连续的,而不是受MOOC课程时间限制的,这一点变得非常重要。
追随你的激情,解决问题。比如从你的Android手机上收集数据,汇总推文研究你最喜欢的演员的粉丝,在《复仇者联盟3:无限战争》中应用奇怪的机器学习案例等等。
▲我的图像说明项目
想象力是无限的,ML也有无限的可能性。现在让我们来探索成为一名更好的数据科学家的能力技能。
数据科学爱好者的目标清单
该列表适用于数据科学家角色,但是如果您申请领域特定的角色,则可能需要更多的技能。
1. 掌握统计和概率:比较容易,这项技能数据科学领域的面包和黄油。我强烈推荐面包优先的方法,除非你是写研究论文或在学术界的角色。
在现实世界中,虽然在编写代码时不会经常使用stats知识。但是,掌握好stas知识不仅能让你成为更好的数据科学家,还能帮助你做出关键决定。
2. 参与数据科学竞赛:主要是学习不一定非要赢比赛。我明白在比赛中获胜并且赢得奖金听起来有利可图。我花了100多场比赛才进入我的第一个50强排行榜。没有人从第一天开始就是赢家。比赛将帮助您在竞争激烈的世界中回顾自己的成长。
3.你的项目是你自己最好的代言人:使您的GitHub配置文件保持活跃并完成至少2-3个项目,包括文档的最终实现。虽然比赛是应用你的技能的一种方式,但是对他们的反对声很大。
比赛并不是现实世界数据科学任务的同义词。他们就像在一家五星级餐厅品尝现成的拼盘。
从头开始贡献或处理项目将使您在实际数据科学任务中获得经验,这些任务才被认为是最重要的。
数据科学&其他
如果你正在寻找一个职位,如果职位描述要求你全能:既要求你是数据科学家又要有8-10年“spark”经验。
赶紧跑吧!(Spark是2011年推出的!)
有很多公司只是因为媒体炒作或者人云亦云的趋势而想要去推动数据科学。
有时候,他们需要的只是.groupby(),而不是机器学习。
未来的工作角色将会大不相同。作为一名数据科学家,请确定您想要进入的领域。目标是你在那个领域的项目和竞赛。
招聘人员更倾向于雇佣已经从事过公司目前正在从事的工作的人。
假设你要去一家餐厅吃海德拉巴Biryani。你会喜欢一个刚刚在YouTube上看过菜谱的新厨师,还是喜欢一家专门制作正宗海德拉巴Biryani的餐厅?公司也是如此。他们想要的是一个有经验的人。
例如:我经常坚持参加金融领域和NLP的竞赛。这是我几个月前接受采访时最大的优势。我可以问更多与领域相关的问题,了解公司目前正在进行哪些项目,以及我认为自己适合哪些领域。
毕竟,比工作更重要的是,可以在你最喜欢的项目度过每个星期一上午。
写在最后
我遇到了这样一个奇妙的场景,实际上是一个极端的场景。想象一下,如果Tensorflow消失了会怎样?
您意识到您不再是数据科学家和ML工程师了!
这个想象很有趣但也合法。
未来可能会有一些新的工具和数据科学库。曾经XGBoost是商业机密算法,现在它完全开源。明天,其他一些工具将改变数据游戏。
AutoML已经在引领下一代数据科学解决方案。我亲自从H2O.ai中找到无人驾驶 AI !
当重复性任务自动化时,业界总会出现问题。让自己了解并学习核心技能,而不是少数库的语法。探索:
你需要让自己时刻保持学习和成长。
打个比方,如果您自己不进行.transform()和.fit()改进,那么您将成为一个under fit分类器~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08