
数据科学家泰勒·理查兹@脸书
大约每个月,我都会收到一封电子邮件,问我如何进入数据科学,我已经回答得够多了,所以我决定把它写在这里,这样我就可以把人们链接到它。所以如果你是这些学生中的一员,欢迎!
我将把它分成基本的建议,如果你只在谷歌上搜索“如何进入数据科学”,就可以很容易地找到这些建议,以及不太常见的建议,但我多年来发现这些建议非常有用。我将从后者开始,然后转向基本建议。显然,对此要半信半疑,因为所有的建议都带有一点生存偏见。
1。查找坚实的社区
如果你在大学里,在那里的一半意义是找到像你这样聪明、有抱负、有动力的人来学习和成长。对我的母校来说,这个社区是数据科学和信息学俱乐部。社区/网络帮助你开始,让你保持动力,并且是获得实习和长期全职工作的关键。
2。将数据科学应用于您喜欢的事物
擅长任何事情都很难(杜),将数据科学应用到你关心的领域或领域可以帮助你保持动力并脱颖而出。我举了几个例子:Usinguf(母校)的学生政府选举,学习机器学习方法,或者通过记录我们的乒乓球比赛来跟踪我朋友的Elo成绩。这些项目教会了我基本的技能,但没有明显的工作感觉。
获得代表你将来想要执行的工作的有用的实践是至关重要的,因为通过这种实践,你只能得到两件事中的一件:
a.意识到你实际上并不喜欢这种类型的数据科学,在这种情况下,你应该立即停止阅读
B.你可以很容易地写(博客)或谈论(给想付钱给你的人)的宝贵经验
这就引出了我的下一个观点。
3。尽量减少“能力证明点击”
招聘人员会花15秒在你的简历上,潜在团队会花1-5分钟(最多)在你的简历+网站/GitHub上(访问者tomy投资组合网站平均会花2分16秒再继续)。这两个群体都经常使用GPA、学校质量或科技公司数据的经验等能力指标(我称之为身份证明)。因此,你应该仔细考虑向读者发出信号所需的时间,告诉他们你可以做他们想招聘的任何工作。要考虑的一个粗略指标是点击证明能力。
如果招聘人员不得不点击Github中正确的存储库,然后点击文件,直到他们发现Jupyter笔记本中有不可读的代码(但没有注释),你就已经输了。如果招聘人员在你的简历上看到机器学习,但你需要点击5次才能看到任何ML产品或代码,你就已经输了。任何人都可以在简历上撒谎;用一个观点来迅速引导读者的注意力,你就会处于一个明显更好的位置。
在我的网站上,我想优化这个指标的方式非常清楚。浏览文本大约需要10秒钟(我敢打赌大多数人不会一直读下去),然后人们可以立即选择一个数据科学项目来查看,这些项目根据它们展示我所能做的工作的程度进行排序。对于在DS中开始,我强烈建议制作一个网站(即使是一个引导模板网站也很好),并将其托管在Github页面或heroku上。
4。通过研究或入门级工作学习
在你做了这三件事之后,看看你是否能说服某人付钱给你学习数据科学。我喜欢UF有一个很棒的选举数据科学小组(麦克唐纳博士和史密斯博士目前负责),但如果你去任何一个研究小组采访他们,他们可能会为你的工作付钱。最终,有了这样的经验,你就可以申请实习并获得丰厚的报酬。这里的关键是不要一开始就寻找那些令人难以置信的花哨的DS实习机会,而是在当地有数据科学任务但没有足够的钱雇佣一名全职数据科学家的公司或研究小组。数据科学学习快速复合,所以现在就开始吧!考虑到所有这些,让我们继续讨论更基本的建议。
数据科学主要是应用于任何领域的编程和统计,所以这两个领域的背景是至关重要的。
1。统计信息
尽快获得一个良好的统计背景(参加课程,在线学习)。教科书会带你走得更远,好奇心会带你走得更远。
书籍/资源:
2。编程
学习Python或R,并真正擅长它。每天做一些新的事情,每周至少花5-10个小时在上面。在此之后学习SQL。你不能跳过这个。
书籍/资源:
3。业务经验
在宝洁,我的数据科学工作被应用于零售业。在脸书,诚信问题。保护民主,呃,民主。学习数据科学在某些业务环境中的应用是很困难的,需要实践,并且通常涉及到对度量、产品分析和激励结构的扎实理解。这非常符合第二个不太基本的建议。
学习数据科学很难,但我发现它非常有价值。我给你的最后一个提议,作为阅读这篇长篇文章的交换,是说一旦你把数据科学应用到你感兴趣的问题上,并把它发布到网上的某个地方,在推特上把它写给我,我保证会阅读并转发它。祝你好运!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11