京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Admond Lee
翻译 | Mika
本文为 CDA 数据分析师原创作品,转载需授权
你想成为一名数据科学家?很棒,说明你是很有上进心的人,而且对数据科学充满热情,并希望通过解决复杂的问题为公司带来价值。但是你在数据科学方面毫无经验,也不知道如何开始。我很懂你,因为曾经我也是如此。本文就是特别针对热情且有抱负的数据科学家,解答进入该领域最常见的问题和挑战。
我希望通过分享我自己的经验,帮助你了解入科从事数据科学的职业,并为你提供一些指南,让你的学习之旅更加愉快。让我们开始吧!
数据科学人才缺口
根据国际数据公司(IDC)预测,2020年全球大数据和业务分析收入将超过2100亿美元。
根据LinkedIn 与2018年8月发布的美国劳动力报告, 2015年美国的数据科学人才过剩。三年后,随着越来越多公司面临数据科学技能人才的短缺,这一趋势发生了巨大变化。越来越多的公司开始使用大数据得出分析见解和制定决策。
从经济角度讲,这完全取决于供需关系。
好消息是:形势以及发生了转变。坏消息是:随着数据科学领域的就业机会不断增加,但很多有抱负的数据科学家由于技能不符合市场的需求,而难以找到心仪的工作。
在接下来的部分中,你将看到该如何提高数据科学技能,从而在大量求职者中脱颖而出,最终收获梦想的工作。
终极指南
1.需要哪些技能以及如何掌握?
说实话,要掌握数据科学领域所有技能几乎是不可能的,因为范围太广了。总有一些技术是数据科学家没有掌握的,因为不同的业务需要不同的技能。
但有一些核心技能是数据科学家所必须掌握的。
技术能力,数学和统计学,编程和商业知识。尽管无论使用何种语言,编程能力都是必备的。作为数据科学家,我们应该运用商业沟通能力想企业高层说明模型结果,同时基于数学和统计学的支持。
数学和统计学
关于数学和统计学,可以查看Randy Lao的相关文章,当中的资源非常丰富。
https://medium.com/@randylaosat
当我刚开始学习数据科学时,我读了这本书 An Introduction to Statistical Learning — with Applications in R(统计学习导论 - 与R中的应用)。我强烈推荐这本书给初学者,因为本书侧重于统计建模和机器学习的基本概念,并提供详细而直观的解释。如果你特别喜欢数学,也许你更喜欢这本书:The Elements of Statistical Learning(统计学习中的元素)。
编程
关于学习编程,特别是对于没有经验的初学者,我建议专注于学习一种语言,我个人更喜欢Python,因为Python更容易学习。关于Python或R哪种语言更好一直都存在争论,我个人认为重点应放在如何帮助企业解决问题,而不是使用哪种语言。
商业知识
最后,我要强调的是对商业知识的理解也是至关重要的。
软技能
事实上,软技能比硬技能更重要。在LinkedIn询问了2000名商业领袖,我们发现2018年他们最希望员工具备的软技能包括:领导力、沟通能力、合作能力和时间管理能力。我认为这些软技能在数据科学家的日常工作中起着至关重要的作用。
2.如何选择合适的训练营和在线课程?
随着人工智能和数据科学的兴起,大量课程课程、训练营如雨后春笋般涌现,都不希望错失良机。
因此问题来了,该如何选择适合你的学习资源呢?
我的选择方法如下:
没有一门课程能涵盖你需要的所有资源。有些课程在某些方面是重叠的,因此不值得花钱购买不同但有重复性的课程。
首先要知道你需要学什么。不要因为花哨和吸引人的标题就盲目选择课程。通过查看求职网站上数据科学家的职位描述,你会发现一些公司需要的通用技能。然后通过了解自己缺乏的技能去搜索相应课程。
比较不同平台提供的优质课程。类比几个课程,并且查看其他人的评论(非常重要!)。另一方面,Coursera、Udemy、Lynda、Codecademy、DataCamp、Dataquest等平台也提供许多免费课程。
以下是我个人特别喜欢的一些课程:
1.Machine Learning ,主讲人: Coursera的联合创始人吴恩达
2.Python for Data Science and Machine Learning Bootcamp,主讲人 :Jose Portilla
3.Deep Learning A-Z™: Hands-On Artificial Neural Networks,主讲人: Kirill Eremenko,Hadelin de Ponteves
4.Python for Data Science Essential Training ,主讲人:Lillian Pierson
5.The Ultimate Hands-On Hadoop — Tame your Big Data,主讲人:Frank Kane
3.能否通过开源学习成为数据科学家?
我想说的是,通过开源学习足以让你开始从事数据科学,之后可以根据业务需求进一步发展自己的职业生涯。
4.对于零基础的初学者有什么推荐的书籍吗?
没有固定的学习途径,条条大路通罗马。阅读相关书籍是掌握基础知识的良好。
注意不要试图去记忆具体的数学和算法细节,因为当应用于实际问题进行编程时,你可能会忘记这些内容。
你只需了解一定的基础知识,并继续学习,要务实。不要试图完全了解所有知识,因为有时完美主义会给你的学习拖后腿。
关于Python、机器学习和深度学习的基础知识,我推荐以下书籍:
Learning Python
Python for Data Analysis
An Introduction to Statistical Learning
Machine Learning for Absolute Beginners
Python Machine Learning
Python Data Science Handbook
Introduction to Machine Learning with Python
Deep Learning with Python
Deep Learning with Keras
5.如何在理解商业问题(制定解决方案)和提高技术技能(编程、数学知识等)之间取得平衡?
在理解商业问题和制定解决方案之前,我首先去提高自己的技术技能。
商业问题在于”是什么”和”为什么”。要解决商业问题,首先必须解决问题。而技术技能是注重于”怎么做”。我的建议主要基于个人经验。
6.如何克服开启数据科学家职业生涯的挑战?
对于许多数据科学家来说,主要挑战就是数据科学是信息的海洋。我们可能失去方向,因为有太多的建议和资源,大量的在线课程、研讨会等等,你需要保持专注,知道你拥有什么,你需要什么。
在我的数据科学历程中,我主要通过这些方法克服这些挑战:
有效地筛选学习资源
在刚开始时,我因为大量的资源感到困惑。通过听数据科学家的播客,阅读如何开启数据科学领域的文章,尝试不同在线课程。最终我关注我在本文中分享的这些优质资源。
不要放弃
当学习过程太过艰难时,我开始怀疑自己,我真的有能力做到吗?我追求的道理是正确的吗?最终对数据科学的热情和耐心让我重新开始,继续不断努力和前行。
获得数据科学相关的工作
由于就业市场竞争激烈,找到心仪的数据科学工作对我来说并非易事。我提交了大量的简历都毫无结果。因此我开始改进找工作的方法,参加聚会和研讨会,在网上分享我的学习经历,在招聘会上于潜在雇主接触等等。
7.如何有效地在简历中加入自己的工作经验,从而提高被录用的几率?
这是一种误解,你并不能通过简历中的经验就被聘用。事实上,简历是面试的敲门砖。
因此,学习如何写简历对于获得面试机会至关重要。研究表明,招聘人员在确定求职者是否适合该职位时,平均看简历的时间仅为6秒。
关于完善简历,我推荐以下网站和文章:
Vault
TopResume
Optimize Guide
A Resume Expert Gives Career Advice
https://www.facebook.com/businessinsider/videos/10153537949019071/
How to Pass the 6-Second Resume Test
https://www.topresume.com/career-advice/how-to-pass-the-6-second-resume-test
How to tailor your Academic CV for Data Science roles
https://www.linkedin.com/pulse/how-tailor-your-academic-cv-data-science-roles-jason-byrne/?trackingId=3ykuEpfW%2BISNc%2Fx9YFbIZQ%3D%3D
What do Hiring Managers Look For in a Data Scientist’s CV?
https://www.linkedin.com/pulse/what-do-hiring-managers-look-data-scientists-cv-ben-dias/
The 14 Things You Need On Your Resume To Land Your Dream Job
https://www.elitedaily.com/money/14-signs-you-have-a-strong-resume/617472
8.怎样的作品集能帮助我们找到第一数据科学或机器学习方面的工作?
简历是不够的,你还需要作品集的支撑。在看了简历之后,招聘人员希望更多地了解你的背景,这时就需要作品集了。
可以试着在社交媒体平台分享自己的学习经历,写文章和做播客都是不错的选择。
更多资源
学习平台 :
Towards Data Science, Quora, DZone, KDnuggets, Analytics Vidhya, DataTau, fast.ai
推荐视频:
Webinars——Data Science Office Hours, Data Science Connect, Humans of Data Science (HoDS)
推荐文章:
A Badass’s Guide to Breaking Into Data
http://www.data-mania.com/blog/guide-to-breaking-into-data/
10 Must Have Data Science Skills
https://www.kdnuggets.com/2016/05/10-must-have-skills-data-scientist.html?utm_content=buffer7c1a3&utm_medium=social&utm_source=linkedin.com&utm_campaign=buffer
My Data Science & Machine Learning, Beginner’s Learning Path
https://www.linkedin.com/pulse/my-data-science-machine-learning-beginners-path-vin-vashishta/?trackingId=J16vYmqLQEZ5wr4oElpnNA%3D%3D
24 Ultimate Data Science Projects To Boost Your Knowledge and Skills
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
值得关注的数据科学家
LinkedIn上的数据科学社区非常棒,以下是我认为值得关注的数据科学家和专业人士:
Randy Lao
Kyle McKiou
Favio Vázquez
Vin Vashishta
Eric Weber
Sarah Nooravi
Kate Strachnyi
Tarry Singh
Karthikeyan P.T.R.
Megan Silvey
Imaad Mohamed Khan
Andreas Kretz
Andriy Burkov
Carla Gentry
Nic Ryan
Beau Walker
结语
希望本文能够解决你的问题。每当你在数据科学旅程中遇到任何障碍,快要放弃时请记住,坚持是关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12