京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据科学家泰勒·理查兹@脸书
大约每个月,我都会收到一封电子邮件,问我如何进入数据科学,我已经回答得够多了,所以我决定把它写在这里,这样我就可以把人们链接到它。所以如果你是这些学生中的一员,欢迎!
我将把它分成基本的建议,如果你只在谷歌上搜索“如何进入数据科学”,就可以很容易地找到这些建议,以及不太常见的建议,但我多年来发现这些建议非常有用。我将从后者开始,然后转向基本建议。显然,对此要半信半疑,因为所有的建议都带有一点生存偏见。
1。查找坚实的社区
如果你在大学里,在那里的一半意义是找到像你这样聪明、有抱负、有动力的人来学习和成长。对我的母校来说,这个社区是数据科学和信息学俱乐部。社区/网络帮助你开始,让你保持动力,并且是获得实习和长期全职工作的关键。
2。将数据科学应用于您喜欢的事物
擅长任何事情都很难(杜),将数据科学应用到你关心的领域或领域可以帮助你保持动力并脱颖而出。我举了几个例子:Usinguf(母校)的学生政府选举,学习机器学习方法,或者通过记录我们的乒乓球比赛来跟踪我朋友的Elo成绩。这些项目教会了我基本的技能,但没有明显的工作感觉。
获得代表你将来想要执行的工作的有用的实践是至关重要的,因为通过这种实践,你只能得到两件事中的一件:
a.意识到你实际上并不喜欢这种类型的数据科学,在这种情况下,你应该立即停止阅读
B.你可以很容易地写(博客)或谈论(给想付钱给你的人)的宝贵经验
这就引出了我的下一个观点。
3。尽量减少“能力证明点击”
招聘人员会花15秒在你的简历上,潜在团队会花1-5分钟(最多)在你的简历+网站/GitHub上(访问者tomy投资组合网站平均会花2分16秒再继续)。这两个群体都经常使用GPA、学校质量或科技公司数据的经验等能力指标(我称之为身份证明)。因此,你应该仔细考虑向读者发出信号所需的时间,告诉他们你可以做他们想招聘的任何工作。要考虑的一个粗略指标是点击证明能力。
如果招聘人员不得不点击Github中正确的存储库,然后点击文件,直到他们发现Jupyter笔记本中有不可读的代码(但没有注释),你就已经输了。如果招聘人员在你的简历上看到机器学习,但你需要点击5次才能看到任何ML产品或代码,你就已经输了。任何人都可以在简历上撒谎;用一个观点来迅速引导读者的注意力,你就会处于一个明显更好的位置。
在我的网站上,我想优化这个指标的方式非常清楚。浏览文本大约需要10秒钟(我敢打赌大多数人不会一直读下去),然后人们可以立即选择一个数据科学项目来查看,这些项目根据它们展示我所能做的工作的程度进行排序。对于在DS中开始,我强烈建议制作一个网站(即使是一个引导模板网站也很好),并将其托管在Github页面或heroku上。
4。通过研究或入门级工作学习
在你做了这三件事之后,看看你是否能说服某人付钱给你学习数据科学。我喜欢UF有一个很棒的选举数据科学小组(麦克唐纳博士和史密斯博士目前负责),但如果你去任何一个研究小组采访他们,他们可能会为你的工作付钱。最终,有了这样的经验,你就可以申请实习并获得丰厚的报酬。这里的关键是不要一开始就寻找那些令人难以置信的花哨的DS实习机会,而是在当地有数据科学任务但没有足够的钱雇佣一名全职数据科学家的公司或研究小组。数据科学学习快速复合,所以现在就开始吧!考虑到所有这些,让我们继续讨论更基本的建议。
数据科学主要是应用于任何领域的编程和统计,所以这两个领域的背景是至关重要的。
1。统计信息
尽快获得一个良好的统计背景(参加课程,在线学习)。教科书会带你走得更远,好奇心会带你走得更远。
书籍/资源:
2。编程
学习Python或R,并真正擅长它。每天做一些新的事情,每周至少花5-10个小时在上面。在此之后学习SQL。你不能跳过这个。
书籍/资源:
3。业务经验
在宝洁,我的数据科学工作被应用于零售业。在脸书,诚信问题。保护民主,呃,民主。学习数据科学在某些业务环境中的应用是很困难的,需要实践,并且通常涉及到对度量、产品分析和激励结构的扎实理解。这非常符合第二个不太基本的建议。
学习数据科学很难,但我发现它非常有价值。我给你的最后一个提议,作为阅读这篇长篇文章的交换,是说一旦你把数据科学应用到你感兴趣的问题上,并把它发布到网上的某个地方,在推特上把它写给我,我保证会阅读并转发它。祝你好运!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12