京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Mohammad Shahebaz
来源 | 图灵TOPIA
本文作者Shahebaz,毕业于JNTUH大学电子与通信工程学院。他最近在Kaggle比赛中获得了4枚银牌和1枚金牌奖牌,并且拥有31 枚讨论金牌,他现在是其所在国家(印度)最年轻(21岁)的Kaggle X2 Master。
他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之旅的。所以,近期他在Medium上撰文分享了自己的成长经验。
他表示,刚开始的时候,自己也是个菜鸟,对很多知识并不是很擅长;并且,数学也从来不是自己最喜欢的科目。然而,今天他却很热爱这个领域。。。
以下是文章具体内容:
少有人走的路
我是最近才开始参加比赛的,并且在过去的9个月中,在各种比赛中赢得了一堆奖牌。这听起来是不是挺神奇的?
我曾经特别害怕参加Kaggle比赛,因为 - 觉得它们很难!
那么,这一切是从什么时候开始改变的呢?
2017年,作为Oppia.org的会员和活跃撰稿人,为了更好地工作,我开始学习Python 2.7。
后来我学会了所谓的“过时”的 Python2.7版本,但是又不得不重新学习Python 3。
我几乎无法创建列表或add/join字符串,那时我也只是一名新手程序员。
我在开源贡献期间学习了编程,使用git进行软件版本控制,以及意识到了良好结构和文档化代码的重要性。
有一天,我正在搜索Python 2.7还能做什么的时候,浏览了一下互联网并登陆了Kaggle。著名的Kaggle 声明(statement)正盯着我,读完问题声明后,我惊奇地盯着屏幕。
“在这次挑战中,我们要求您完成对哪些人可能存活的分析”
当我读到这个。我感觉到了像追星族般的惊奇。预测幸存的人?这是什么样的黑魔法?我甚至立刻检查了Kaggle网站的真实性,第二个惊奇的时刻就是我意识到 -
数据科学听起来像是21世纪非常真实的科幻技术!
就像一部科幻电影突然在我的现实生活中出现,它的概念对我来说完全陌生。
我决定让自己进入这个领域。而对数据科学学习的热情一直在我身上保持。(老实说,即使今天也没有任何消减)
我是如何学习的?推荐资源!
▲选择的悖论——越多越少
如今,网上有很多课程。通过谷歌搜索 - “如何成为数据科学家” ,你就会得到许多结果,也就很容易陷入选择的悖论。这种感觉就像在餐馆里从琳琅满目的选择中选择一道美味的开胃菜。就本文的范围而言,我将列出我最喜欢的几本书。
Python推荐
如果您使用Python编写代码并且您的技能处于中间水平,则本书应该放在您的书架上。
《Python的数据结构和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰写。
▲《Python中的数据结构和算法》
本书深入探讨了Python中的OOP,数据结构和算法的概念。我喜欢本章每一节的练习。在制作需要优化和格式化编码的车库项目时,我仍然将其用于日常参考。
着手机器学习基础知识
结束Python基础知识之后。我买了几本关于机器学习的书,我推荐这本书;
▲《用Python学习机器学习》
《用Python学习机器学习》,作者是Andreas C. Müllerand Sarah Guido
它涉及机器学习的基础知识,由scikit-learn的创始人自己编写,它是一本完整的初学者入门书。
读这本书让我非常熟悉scikit-learn,我最终还在官方的scikit-learn存储库中推了几个PR。
但是,如果您熟悉数据科学并已进入任何机器学习竞赛的前20%,您会发现上述的书挺无聊的。但是,如果你仔细阅读,肯定有一些方便的技巧和方法可以帮助你在比赛中获得优势。
另一本比MOOC更值得推荐的书是《Introduction to Statistical Learning with Applications in R》
如果我是一名面试官,我会找一个在理论和实践中理解ISLR的人。
▲《ISLR》
这本书是关于R语言的。但是,我仍然十分推荐它。
通常在研究背景下,对于想要深入挖掘并达到统计核心的人来说,《统计学习的要素》是非常推荐的一本书。ISLR和ESL这两本书都是可以免费下载的。因此,您不必破费,就可以获得免费的机器学习知识。
▲《统计学习的要素》
人们经常问我 - 你学习机器学习的MOOC是什么?
答案是None。
我发现在线课程没有效果。至少,我注册的那些没有效果。有以下几个原因:
这并不意味着我讨厌MOOC。事实上,我计划在今年完成一些工作。我建议你把基础打牢,而不是专注于观看只针对单一课程的视频内容。阅读书籍和资源肯定扩展了我对某些概念的认识,我现在可以从不同的角度来解释这些概念。
初学者的生活
我经常在LinkedIn上收到想要从事数据科学的人发来的信息。但痛苦的现实是,根据你之前所做的,学习曲线并不陡峭。我会让你从我的经历中走出来。
这是我当时的问题:
1、如何开始使用数据科学?
2、我完成了一堆算法。接下来做什么?
3、如何找到工作并搞定数据科学面试?
4、做Kaggle值得吗?比赛会有所作为吗?
我非常渴望得到这些问题的答案!
现在,我已经通过了系统的学习,可以用一句话回答你:事情没那么简单,这很复杂。
部分原因是术语—数据分析师、数据科学家和ML工程师是三个不同的头衔。这份工作的性质因公司而异。
数据分析师有时只能执行SQL查询,或者构建模型或进行业务分析。有时他们也会成为项目经理。
数据科学家有时制作基本模型,其他角色需要博士学位。研究工作和很少的其他工作需要在大型系统上进行模型调优和部署。
ML Engineer是融合了数据科学知识的软件工程专业知识
问题是……
您的梦想数据科学工作没有固定的职位描述。
许多公司仍在搞清楚“究竟什么属于数据科学,应该关注哪些问题”。在这种情况下,你的学习必须是连续的,而不是受MOOC课程时间限制的,这一点变得非常重要。
追随你的激情,解决问题。比如从你的Android手机上收集数据,汇总推文研究你最喜欢的演员的粉丝,在《复仇者联盟3:无限战争》中应用奇怪的机器学习案例等等。
▲我的图像说明项目
想象力是无限的,ML也有无限的可能性。现在让我们来探索成为一名更好的数据科学家的能力技能。
数据科学爱好者的目标清单
该列表适用于数据科学家角色,但是如果您申请领域特定的角色,则可能需要更多的技能。
1. 掌握统计和概率:比较容易,这项技能数据科学领域的面包和黄油。我强烈推荐面包优先的方法,除非你是写研究论文或在学术界的角色。
在现实世界中,虽然在编写代码时不会经常使用stats知识。但是,掌握好stas知识不仅能让你成为更好的数据科学家,还能帮助你做出关键决定。
2. 参与数据科学竞赛:主要是学习不一定非要赢比赛。我明白在比赛中获胜并且赢得奖金听起来有利可图。我花了100多场比赛才进入我的第一个50强排行榜。没有人从第一天开始就是赢家。比赛将帮助您在竞争激烈的世界中回顾自己的成长。
3.你的项目是你自己最好的代言人:使您的GitHub配置文件保持活跃并完成至少2-3个项目,包括文档的最终实现。虽然比赛是应用你的技能的一种方式,但是对他们的反对声很大。
比赛并不是现实世界数据科学任务的同义词。他们就像在一家五星级餐厅品尝现成的拼盘。
从头开始贡献或处理项目将使您在实际数据科学任务中获得经验,这些任务才被认为是最重要的。
数据科学&其他
如果你正在寻找一个职位,如果职位描述要求你全能:既要求你是数据科学家又要有8-10年“spark”经验。
赶紧跑吧!(Spark是2011年推出的!)
有很多公司只是因为媒体炒作或者人云亦云的趋势而想要去推动数据科学。
有时候,他们需要的只是.groupby(),而不是机器学习。
未来的工作角色将会大不相同。作为一名数据科学家,请确定您想要进入的领域。目标是你在那个领域的项目和竞赛。
招聘人员更倾向于雇佣已经从事过公司目前正在从事的工作的人。
假设你要去一家餐厅吃海德拉巴Biryani。你会喜欢一个刚刚在YouTube上看过菜谱的新厨师,还是喜欢一家专门制作正宗海德拉巴Biryani的餐厅?公司也是如此。他们想要的是一个有经验的人。
例如:我经常坚持参加金融领域和NLP的竞赛。这是我几个月前接受采访时最大的优势。我可以问更多与领域相关的问题,了解公司目前正在进行哪些项目,以及我认为自己适合哪些领域。
毕竟,比工作更重要的是,可以在你最喜欢的项目度过每个星期一上午。
写在最后
我遇到了这样一个奇妙的场景,实际上是一个极端的场景。想象一下,如果Tensorflow消失了会怎样?
您意识到您不再是数据科学家和ML工程师了!
这个想象很有趣但也合法。
未来可能会有一些新的工具和数据科学库。曾经XGBoost是商业机密算法,现在它完全开源。明天,其他一些工具将改变数据游戏。
AutoML已经在引领下一代数据科学解决方案。我亲自从H2O.ai中找到无人驾驶 AI !
当重复性任务自动化时,业界总会出现问题。让自己了解并学习核心技能,而不是少数库的语法。探索:
你需要让自己时刻保持学习和成长。
打个比方,如果您自己不进行.transform()和.fit()改进,那么您将成为一个under fit分类器~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17