京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据科学家泰勒·理查兹@脸书
大约每个月,我都会收到一封电子邮件,问我如何进入数据科学,我已经回答得够多了,所以我决定把它写在这里,这样我就可以把人们链接到它。所以如果你是这些学生中的一员,欢迎!
我将把它分成基本的建议,如果你只在谷歌上搜索“如何进入数据科学”,就可以很容易地找到这些建议,以及不太常见的建议,但我多年来发现这些建议非常有用。我将从后者开始,然后转向基本建议。显然,对此要半信半疑,因为所有的建议都带有一点生存偏见。
1。查找坚实的社区
如果你在大学里,在那里的一半意义是找到像你这样聪明、有抱负、有动力的人来学习和成长。对我的母校来说,这个社区是数据科学和信息学俱乐部。社区/网络帮助你开始,让你保持动力,并且是获得实习和长期全职工作的关键。
2。将数据科学应用于您喜欢的事物
擅长任何事情都很难(杜),将数据科学应用到你关心的领域或领域可以帮助你保持动力并脱颖而出。我举了几个例子:Usinguf(母校)的学生政府选举,学习机器学习方法,或者通过记录我们的乒乓球比赛来跟踪我朋友的Elo成绩。这些项目教会了我基本的技能,但没有明显的工作感觉。
获得代表你将来想要执行的工作的有用的实践是至关重要的,因为通过这种实践,你只能得到两件事中的一件:
a.意识到你实际上并不喜欢这种类型的数据科学,在这种情况下,你应该立即停止阅读
B.你可以很容易地写(博客)或谈论(给想付钱给你的人)的宝贵经验
这就引出了我的下一个观点。
3。尽量减少“能力证明点击”
招聘人员会花15秒在你的简历上,潜在团队会花1-5分钟(最多)在你的简历+网站/GitHub上(访问者tomy投资组合网站平均会花2分16秒再继续)。这两个群体都经常使用GPA、学校质量或科技公司数据的经验等能力指标(我称之为身份证明)。因此,你应该仔细考虑向读者发出信号所需的时间,告诉他们你可以做他们想招聘的任何工作。要考虑的一个粗略指标是点击证明能力。
如果招聘人员不得不点击Github中正确的存储库,然后点击文件,直到他们发现Jupyter笔记本中有不可读的代码(但没有注释),你就已经输了。如果招聘人员在你的简历上看到机器学习,但你需要点击5次才能看到任何ML产品或代码,你就已经输了。任何人都可以在简历上撒谎;用一个观点来迅速引导读者的注意力,你就会处于一个明显更好的位置。
在我的网站上,我想优化这个指标的方式非常清楚。浏览文本大约需要10秒钟(我敢打赌大多数人不会一直读下去),然后人们可以立即选择一个数据科学项目来查看,这些项目根据它们展示我所能做的工作的程度进行排序。对于在DS中开始,我强烈建议制作一个网站(即使是一个引导模板网站也很好),并将其托管在Github页面或heroku上。
4。通过研究或入门级工作学习
在你做了这三件事之后,看看你是否能说服某人付钱给你学习数据科学。我喜欢UF有一个很棒的选举数据科学小组(麦克唐纳博士和史密斯博士目前负责),但如果你去任何一个研究小组采访他们,他们可能会为你的工作付钱。最终,有了这样的经验,你就可以申请实习并获得丰厚的报酬。这里的关键是不要一开始就寻找那些令人难以置信的花哨的DS实习机会,而是在当地有数据科学任务但没有足够的钱雇佣一名全职数据科学家的公司或研究小组。数据科学学习快速复合,所以现在就开始吧!考虑到所有这些,让我们继续讨论更基本的建议。
数据科学主要是应用于任何领域的编程和统计,所以这两个领域的背景是至关重要的。
1。统计信息
尽快获得一个良好的统计背景(参加课程,在线学习)。教科书会带你走得更远,好奇心会带你走得更远。
书籍/资源:
2。编程
学习Python或R,并真正擅长它。每天做一些新的事情,每周至少花5-10个小时在上面。在此之后学习SQL。你不能跳过这个。
书籍/资源:
3。业务经验
在宝洁,我的数据科学工作被应用于零售业。在脸书,诚信问题。保护民主,呃,民主。学习数据科学在某些业务环境中的应用是很困难的,需要实践,并且通常涉及到对度量、产品分析和激励结构的扎实理解。这非常符合第二个不太基本的建议。
学习数据科学很难,但我发现它非常有价值。我给你的最后一个提议,作为阅读这篇长篇文章的交换,是说一旦你把数据科学应用到你感兴趣的问题上,并把它发布到网上的某个地方,在推特上把它写给我,我保证会阅读并转发它。祝你好运!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10