京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我是如何从物理学转行到数据科学领域
很多人问我是如果从物理学转行到数据科学,本文讲述了关于我为什么决定成为一名数据科学家,以及我是如何追求并实现目标的。希望能够最终鼓励更多的人追求自己的梦想。让我们开始吧!
CERN 暑期项目
2017年CERN暑期项目
CERN(欧洲核子研究组织)暑期项目为物理、计算机和工程专业的本科生提供了千载难逢的机会,让他们前往瑞士日内瓦,与顶尖科学家一起参加研究项目。
2017年6月,我非常幸运地被选中参加这个项目。粒子物理学是我的研究方向,能够参加CERN的研究项目让我欣喜不已。在为期2个月的项目期间,针对CMS(紧凑μ子线圈)实验,我通过世界级LHC(大型强子对撞机)计算网格和云计算进行了相关分析和模拟。
CMS(紧凑μ子线圈)
此外,暑期项目还包含了一系列围绕粒子物理和计算领域的讲座、研讨会。
在此期间,通过参加讲座、研讨会以及项目,我开始接触到机器学习和大数据分析。令我惊讶的是,机器学习技术能够处理大量的数据,并精确的对各种微观粒子进行分类和检测。接着我毫不犹豫地投入了对机器学习和云计算的探究与学习。
谁知道这次经历会成为我人生中的转折点,我打算投身数据分析。然而此时我对数据科学的定义仍比较模糊。
数据科学领域初探
当我一结束暑期项目回到新加坡,我就对解数据科学进行了一些探究,令我惊讶的是,这个领域并没有明确的定义。但总的来说,在我看来,数据科学涵盖了编程、数学、统计知识以及一定专业知识。
尽管如此,我还是惊讶于数据是如何被用来为公司得出分析见解,并驱动商业价值。从理解业务问题,到收集和进行数据可视化,直到构建原型开发阶段,进行微调,并将模型部署到实际应用程序中,在这些过程中我发现了通过使用数据解决复杂问题、完成挑战的满足感。
“没有数据,你只是一个空有想法的人”。
—— W. Edwards Deming
我的出发点—数据可视化
Tableau Dashboard
2017年8月,作为进入数据科学领域的第一步,我参加了由Tableau和IMDA(Infocomm Media Development Authority)共同组织的NIC Face-Off 数据竞赛,当中我首次接触到数据可视化。
当中我有机会使用Tableau Public对各种开放数据源进行可视化,这些数据调查了东南亚雾霾的起源,并提供了可操作性的的见解。
第一份数据分析兼职实习
在同月,我偶然发现了一个机会成为了mobilityX的一名数据分析实习生,这是一家由SMRT资助的初创公司。考虑到可读性和广泛社区的支持,我使用Python进行编程。
其实在我大一开始学习编程时,我想过放弃。为了运行一个简单的for循环,我可能要花费好几天甚至几周。而且我常常会感觉自己没有天赋。
直到大三我和教授开始一项研究项目,我才开始对编程产生兴趣。我开始使用Python进行构建,并喜欢上了这个编程语言。
我开始不在自我怀疑,而是采用以下的步骤学习编程:
1. 理解编程的基本逻辑;
2. 选择一种编程语言并学习如何使用(语法等);
3. 练习,练习,再练习;
4. 重复步骤1-3 。
实习一直持续到2018年3月,期间我的收获颇多。我学会使用PostgreSQL和Python进行数据清理和操作、web抓取以及数据提取。
数据科学全职实习
之前经历进一步强化了我对数据科学的喜爱。之后我计划了自己的学习时间表,并在2017年12月毕业后,开始了在Quantum Inventions的数据科学全职实习。
看到这里你可能会问 ,为什么我选择去实习而不是一份数据科学的工作?那就是在申请全职工作之前,能够通过处理实际的数据,获得更多的技术知识,并从头开始体验数据科学的整个流程。
学习资源
以下总结了我的学习过程,当中我接受了很多人的帮助,并充分利用了大量的在线资源。
1. 推荐书籍
我读的第一本数据科学的书是《统计学习导论:基于R应用》(An Introduction to Statistical Learning — with Applications in R)。这本书对于初学者是非常不错的选择,当中着重统计建模和机器学习的基本概念,并提供详细而直观的解释。如果你很擅长数学,那么你肯定会喜欢这本书:《统计学习基础》(The Elements of Statistical Learning)。
还有一些相关书籍也是不错的选择,比如Sebastian Raschka的《面向初学者的机器学习》(Machine Learning for Absolute Beginners),《Python 和机器学习》(Python Machine Learning);以及Jake VanderPlas的《Python数据科学手册》( Python Data Science Handbook)。
2. 在线课程
Coursera
我推荐Coursera联合创始人吴恩达的《机器学习》课程。他能够把复杂的概念分解成更简单内容。该课程为期11周,主要围绕监督式学习、无监督学习以及机器学习的实际应用。当构建机器学习模型时,我仍然会参考该课程讲义,用来解决欠拟合或过度拟合的问题。
Udemy
Jose Portilla的《在数据科学和机器学习中使用Python》(Python for Data Science and Machine Learning Bootcamp)是不错的选择。该课程从Python基础知识开始,逐步指导你如何使用scikit-learn和TensorFlow实现各种机器学习和深度学习代码。本课程详细介绍了Python中各种库,用来实现机器学习模型。
此外,我强烈推荐Kirill Eremenko和Hadelin de Ponteves的课程《深度学习A-Z:人工神经网络》( Deep Learning A-Z™: Hands-On Artificial Neural Networks )。通过该课程,我第一次接触到深度学习。课程主要通过实际操作的编程教程,把握监督和无监督深度学习。
Lynda
我推荐Lillian Pierson的课程《在数据科学基础训练中使用Python》( Python for Data Science Essential Training 。该课程以统计分析为基础,围绕数据管理和数据可视化。
3. LinkedIn
LinkedIn是与数据科学社区有紧密联系的的强大平台。人们愿意在上面分享他们的经验、想法和知识,从而帮助他人。在LinkedIn上,我学习到了很多,无论是技术知识还是职业咨询等。
4. 其他资源
许多数据科学领域的初学者经常会被大量的资源所淹没。除了以上资源平台以外,还有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不错的选择。
建立作品集
个人作品集能够展示你的经验和能力,特别是当你没有数据科学方面的博士学位时。
由于我只有物理学的学士学位,我没有计算机科学相关学位,在大学的前三年中我也没有任何相关的数据科学作品。建立个人作品集是很重要的,因为公司需要知道你学了些什么,如何能过为公司业务贡献价值。这也是我决定实习和学习在线课程的原因。
不久之前,我和朋友一起参加由Shopee和工程与科技协会(IET)组织的Kaggle 机器学习挑战赛。这是我第一次参加Kaggle比赛,我学习了如何使用卷积神经网络(CNN)和迁移学习进行图像识别。
结语
我分享了我进入数据科学行业的一些情况,希望我的经历能够让你觉得数据科学其实很有趣,并不那么吓人。直到我接触到数据科学,我才愈发感受到什么是学无止境。我希望本文能够激励你去挑战自己,实现自己的梦想。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15