
数据科学家是干什么的?听七位受欢迎的专业人士发表见解
我们来跟上这些从事该职业的独角兽的步伐,了解使他们取得成就的工作、技能和教育。
来会一会数据科学家
我们中的很多人上大学时,那时没有数据科学家的职位。这是分析数据的科学和统计方法混合在一起,知道如何使用从海量数据库中提取模式和答案的工具。听起来很沉闷?还好啦。事实上,早在2012年,《哈佛商业评论》就把它称为“21世纪最性感的工作”。
所以,大家自然都需要数据科学家。但更重要的是,既然我们深入信息时代,所有的企业——不管它们的最终产品是什么或客户是什么人——都需要一个数据科学家。
据IBM介绍,世界上大部分的数据都是在过去两年中创建的。而且我们正在以前所未有的速度创建着数据:我们作为世界人口,每天都生成2.5个五万亿字节的数据。但是如果没有引导和探测的方法,人类很有可能淹没在数据的洪流中,而不是用它来理解噪音,帮公司回应客户的需求和抱怨,控制费用和制造,了解趋势如何影响利润,以及其它可以从空前的数据泛滥中挖掘到的东西。
问题是什么呢?数据科学家是——如果你听过坊间传言——就像独角兽一样罕见。
我们确实找到了一些数据科学家。而且,一旦我们强行与他们交谈,向这些专业的求索者提出质疑。我们就会学到一些东西,即用上物理学、甚至天体物理学——工作依然是混乱的,即使是鞋匠也有大量的数据,即使你提出了有关大量的数据的大问题,仍然需要有人来决定要做什么。
往下读,一起来会一会这些独角兽。
Meggie von Haartman
Meggie von Haartman自从标题出现之前就一直是一位实践的数据科学家。她拥有工业工程专业博士学位,专攻优化和运营研究,她在硅谷的一家初创公司工作了很久,然后着手建立数据模型,帮助Efinancial实现营销目标。关于她的头衔,她说:“在某个时候重新塑造品牌是很有意义的”。
在不处理数据的时候,她喜欢做一些自己的研究。她说:“我目前正在研究培养一个快乐的孩子的最佳方法。”
她最近读什么书?
Seth Stephens Davidowitz写的《人人都撒谎:大数据,新数据,以及互联网能怎样告诉我们到底是谁》。
她喜欢喝什么?
身为一名比利时特拉普主义者。她说:“我最喜欢喝的是智美啤酒。我曾经两次来到Chimay小镇喝啤酒,第二次是花三个小时从巴黎绕道而过的。
Anthony Rose
在从Anthony Rose看来,处理粒子物理学的数据和在机场叫优步的所涉及到的数据挑战之间没有太大的区别。
他在优步管理着一支专注于改善在机场、大型活动和郊区等复杂的环境找网约车的数据科学家团队。他们与工程和产品团队密切合作,处理从统计分析、数据可视化、实验、机器学习和建模等方面的所有工作。他说:“我们拥有大量的数据,只要时间充足,我们可以问大量有趣的问题。”
这与他在粒子物理学方面所做的工作没有什么不同。他在CERN的大型强子对撞机做博士后研究,研究希格斯的发现,探索新物理学,以及涉及大量数据和复杂答案的大量其它问题。他说:“这种工作非常适合我在工业界所做的工作。具有深藏不露的信号的大数据集、实验设计、以及大量的统计和编码。”
她最近读什么书?
Douglas Hofstadter写的《哥德尔、艾舍尔、巴赫》
她喜欢喝什么?
通常是咖啡,至少在做数据科学的时候喝咖啡。
Danielle Dean
对于Danielle Dean来说,数据科学始于心理学。他说:“我曾攻读量化心理学方面的博士学位。因为我对如何用数学和统计学来大量研究个人行为感到好奇。”
这听起来很像我们现在所说的数据科学。她说:“我学会了如何思考数据测量、分析和可视化,并使用技术(编程语言和工具)来实现它。她非常适合在微软的人工智能和研究小组工作,她领导一个跨学科团队——有物理学、海洋学、计算机科学、统计学和神经科学的代表——数据科学家和工程师在构建预测分析和机器学习解决方案。
她最近读什么书?
Cathy O'Neil的《大规模数学性武器:大数据如何加剧不平等并对民主产生威胁》。她说:“这是对我们生活中的幂算法的一个很好的提醒。
她喜欢喝什么?
苏打水
Brad Morgart
博思艾伦咨询公司的Morgart团队分析了不动产和基础设施组合,帮助客户确定资金需求并影响他们的决策。他说:“基础设施和不动产的维护费用非常高昂。我们的团队使用数据分析以高效的资产管理来支持客户。”
他说:“我由于受到这种需求的刺激,迫不及待地接受了博思艾伦咨询公司提供的额外培训,成了一名数据科学家”。该公司一直致力于培养一流的数据科学团队,并于最近推出了一个基础课程,帮助将分析师转变为数据科学家。
他最大的工作挑战是解读客户的请求,以便他的团队可以提供有意义的分析。他说:“你可以使用高级分析工具快速地处理和分析大量数据,但是你仍然需要了解客户的使命和目标。我们所做的大部分工作是分析。但它最终是一个影响我们决策的工具。“
她最近读什么书?
James Michener的《加勒比》。“我去了多米尼加共和国的拉斯特拉纳斯,想了解这个地区。”
她喜欢喝什么?
几乎总是咖啡
Lisa Burton
Lisa Burton管理一个早期的温室,媒体和科技领域的女性主导的创业公司。她说:“我们的团队发掘有潜力的公司并投资它们。”
她的博士学位攻读的是机械工程专业,专注于数据驱动的数学建模,这是迈向数据科学很自然的一步。她说:“我毕业的时候,那时数据刚刚开始兴起。但是当我了解到公司想从数据科学家那里得到的东西时,我很快就意识到这正是我喜欢研究的一切东西。”
所以,从研究生院一毕业,她就成了奥斯汀一家广告技术初创公司的第一位数据科学家。她喜欢这份工作。她利用数据优化了付费搜索广告的出价,实现了自动化并改进流程。从那里开始那里,她去了一家移动支付初创公司,然后自立门户成为一名为初创公司提供数据驱动科学咨询服务的顾问。在那里,她遇到了一个客户,他最终成为了一家使用社交媒体数据帮助各大品牌了解客户的公司的共同创始人。
她将所有这些经验带到她目前的职位中。她说:“我们遇到了最不可思议的创始人和公司。但是,自打她从第一份工作中学到的一件事情影响了一切,因为我认为这能够将数据科学传达给广泛的受众,让他们产生兴趣并支持我们的工作,这一点非常重要。这适用于我以后所做的一切。”
她最近读什么书?
Cathy O'Neil的《大规模数学性武器:大数据如何加剧不平等并对民主产生威胁》。她说:“它谈到了创建模型时引入的潜在的偏见和不平等。
她喜欢喝什么?
香槟酒。“就像拿破仑波拿巴一样,我赢了喝香槟庆祝,输了也喝香槟安慰自己。”
Nitin Mayande
Mayande一直着迷于网络以及它们的工作原理。但在他毕业获得了电子学和电信学位后,他想研究天体物理学。在申请研究生院时,他在印度的一家工程公司工作。他说:“我注意到,我一直想要实施最好的技术解决方案,但是管理层总是选择技术上较差,但花费较少时间的解决方案。”这让他对决策科学感兴趣,并走上了阴差阳错的道路。他没有选择天体物理学,而是攻读工程学、天体物理学或管理学的博士学位——解决方案全部是关于结构的。这最终导致我成为一名数据科学家。“
如今,Nitin做能支持耐克的重要产品规划决策的预测。
他还想纠正一个关于数据科学家的错误观念。他说:“人们认为我们花费所有的时间来构建复杂的算法,但我们大部分时间都花在清理数据上,以便将其转化为可用的格式”。一旦一切能正常工作,分析立刻就会发生。“但是到那个地步,需要做大量的细节工作和解决问题。”
她最近读什么书?
P.G. Wodehouse的《布兰丁城堡的塘鹅》
她喜欢喝什么?
埃塞俄比亚浅度烘培咖啡
Ye Zhao
作为声田(Spotify)的新型自助式服务广告平台Ad Studio的数据科学家,Ye寻找有助于音乐公司做出产品决策的洞察。这本质上是一个流媒体音乐公司的营销工作。但Ye一开始是一个物理学家。
她一直对物理学感兴趣,在学术界做过物理学研究,甚至还有一个以她命名的小行星来证明它。她最终怎么就选择在声田工作的?她说:“我巴不得数据科学能采用物理学的严谨和技术性的部分,并将其应用于一个引人入胜的话题:人类行为。”
她把所有你希望从小行星物理学中看到的极客般的、热爱泰迪熊般的创客精神带到了她在音乐公司的工作中。她说:“我们在一个由2000个LED组成的自定义LED阵列上进行了物理数据可视化,以在声田上显示美国的流媒体数据。这是硬件、后端和数据工作的完美结合。我们是在奇思妙想周(译注:hackweek的意思大致是,给你一周的时间,找一个感兴趣的项目,找几个人组个队,然后把想法实现出来)期间做的。”
她最近读什么书?
Kurban的《阿里和尼诺》。她说:“这是关于一个穆斯林王子和格鲁吉亚公主之间的种族通婚。
她喜欢喝什么?
咖啡。她说:“绝对是咖啡,如果没有咖啡,我无法开始新的一天。我偶尔也会在晚上喝香槟。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29