京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据科学家是干什么的?听七位受欢迎的专业人士发表见解
我们来跟上这些从事该职业的独角兽的步伐,了解使他们取得成就的工作、技能和教育。
来会一会数据科学家
我们中的很多人上大学时,那时没有数据科学家的职位。这是分析数据的科学和统计方法混合在一起,知道如何使用从海量数据库中提取模式和答案的工具。听起来很沉闷?还好啦。事实上,早在2012年,《哈佛商业评论》就把它称为“21世纪最性感的工作”。
所以,大家自然都需要数据科学家。但更重要的是,既然我们深入信息时代,所有的企业——不管它们的最终产品是什么或客户是什么人——都需要一个数据科学家。
据IBM介绍,世界上大部分的数据都是在过去两年中创建的。而且我们正在以前所未有的速度创建着数据:我们作为世界人口,每天都生成2.5个五万亿字节的数据。但是如果没有引导和探测的方法,人类很有可能淹没在数据的洪流中,而不是用它来理解噪音,帮公司回应客户的需求和抱怨,控制费用和制造,了解趋势如何影响利润,以及其它可以从空前的数据泛滥中挖掘到的东西。
问题是什么呢?数据科学家是——如果你听过坊间传言——就像独角兽一样罕见。
我们确实找到了一些数据科学家。而且,一旦我们强行与他们交谈,向这些专业的求索者提出质疑。我们就会学到一些东西,即用上物理学、甚至天体物理学——工作依然是混乱的,即使是鞋匠也有大量的数据,即使你提出了有关大量的数据的大问题,仍然需要有人来决定要做什么。
往下读,一起来会一会这些独角兽。
Meggie von Haartman
Meggie von Haartman自从标题出现之前就一直是一位实践的数据科学家。她拥有工业工程专业博士学位,专攻优化和运营研究,她在硅谷的一家初创公司工作了很久,然后着手建立数据模型,帮助Efinancial实现营销目标。关于她的头衔,她说:“在某个时候重新塑造品牌是很有意义的”。
在不处理数据的时候,她喜欢做一些自己的研究。她说:“我目前正在研究培养一个快乐的孩子的最佳方法。”
她最近读什么书?
Seth Stephens Davidowitz写的《人人都撒谎:大数据,新数据,以及互联网能怎样告诉我们到底是谁》。
她喜欢喝什么?
身为一名比利时特拉普主义者。她说:“我最喜欢喝的是智美啤酒。我曾经两次来到Chimay小镇喝啤酒,第二次是花三个小时从巴黎绕道而过的。
Anthony Rose
在从Anthony Rose看来,处理粒子物理学的数据和在机场叫优步的所涉及到的数据挑战之间没有太大的区别。
他在优步管理着一支专注于改善在机场、大型活动和郊区等复杂的环境找网约车的数据科学家团队。他们与工程和产品团队密切合作,处理从统计分析、数据可视化、实验、机器学习和建模等方面的所有工作。他说:“我们拥有大量的数据,只要时间充足,我们可以问大量有趣的问题。”
这与他在粒子物理学方面所做的工作没有什么不同。他在CERN的大型强子对撞机做博士后研究,研究希格斯的发现,探索新物理学,以及涉及大量数据和复杂答案的大量其它问题。他说:“这种工作非常适合我在工业界所做的工作。具有深藏不露的信号的大数据集、实验设计、以及大量的统计和编码。”
她最近读什么书?
Douglas Hofstadter写的《哥德尔、艾舍尔、巴赫》
她喜欢喝什么?
通常是咖啡,至少在做数据科学的时候喝咖啡。
Danielle Dean
对于Danielle Dean来说,数据科学始于心理学。他说:“我曾攻读量化心理学方面的博士学位。因为我对如何用数学和统计学来大量研究个人行为感到好奇。”
这听起来很像我们现在所说的数据科学。她说:“我学会了如何思考数据测量、分析和可视化,并使用技术(编程语言和工具)来实现它。她非常适合在微软的人工智能和研究小组工作,她领导一个跨学科团队——有物理学、海洋学、计算机科学、统计学和神经科学的代表——数据科学家和工程师在构建预测分析和机器学习解决方案。
她最近读什么书?
Cathy O'Neil的《大规模数学性武器:大数据如何加剧不平等并对民主产生威胁》。她说:“这是对我们生活中的幂算法的一个很好的提醒。
她喜欢喝什么?
苏打水
Brad Morgart
博思艾伦咨询公司的Morgart团队分析了不动产和基础设施组合,帮助客户确定资金需求并影响他们的决策。他说:“基础设施和不动产的维护费用非常高昂。我们的团队使用数据分析以高效的资产管理来支持客户。”
他说:“我由于受到这种需求的刺激,迫不及待地接受了博思艾伦咨询公司提供的额外培训,成了一名数据科学家”。该公司一直致力于培养一流的数据科学团队,并于最近推出了一个基础课程,帮助将分析师转变为数据科学家。
他最大的工作挑战是解读客户的请求,以便他的团队可以提供有意义的分析。他说:“你可以使用高级分析工具快速地处理和分析大量数据,但是你仍然需要了解客户的使命和目标。我们所做的大部分工作是分析。但它最终是一个影响我们决策的工具。“
她最近读什么书?
James Michener的《加勒比》。“我去了多米尼加共和国的拉斯特拉纳斯,想了解这个地区。”
她喜欢喝什么?
几乎总是咖啡
Lisa Burton
Lisa Burton管理一个早期的温室,媒体和科技领域的女性主导的创业公司。她说:“我们的团队发掘有潜力的公司并投资它们。”
她的博士学位攻读的是机械工程专业,专注于数据驱动的数学建模,这是迈向数据科学很自然的一步。她说:“我毕业的时候,那时数据刚刚开始兴起。但是当我了解到公司想从数据科学家那里得到的东西时,我很快就意识到这正是我喜欢研究的一切东西。”
所以,从研究生院一毕业,她就成了奥斯汀一家广告技术初创公司的第一位数据科学家。她喜欢这份工作。她利用数据优化了付费搜索广告的出价,实现了自动化并改进流程。从那里开始那里,她去了一家移动支付初创公司,然后自立门户成为一名为初创公司提供数据驱动科学咨询服务的顾问。在那里,她遇到了一个客户,他最终成为了一家使用社交媒体数据帮助各大品牌了解客户的公司的共同创始人。
她将所有这些经验带到她目前的职位中。她说:“我们遇到了最不可思议的创始人和公司。但是,自打她从第一份工作中学到的一件事情影响了一切,因为我认为这能够将数据科学传达给广泛的受众,让他们产生兴趣并支持我们的工作,这一点非常重要。这适用于我以后所做的一切。”
她最近读什么书?
Cathy O'Neil的《大规模数学性武器:大数据如何加剧不平等并对民主产生威胁》。她说:“它谈到了创建模型时引入的潜在的偏见和不平等。
她喜欢喝什么?
香槟酒。“就像拿破仑波拿巴一样,我赢了喝香槟庆祝,输了也喝香槟安慰自己。”
Nitin Mayande
Mayande一直着迷于网络以及它们的工作原理。但在他毕业获得了电子学和电信学位后,他想研究天体物理学。在申请研究生院时,他在印度的一家工程公司工作。他说:“我注意到,我一直想要实施最好的技术解决方案,但是管理层总是选择技术上较差,但花费较少时间的解决方案。”这让他对决策科学感兴趣,并走上了阴差阳错的道路。他没有选择天体物理学,而是攻读工程学、天体物理学或管理学的博士学位——解决方案全部是关于结构的。这最终导致我成为一名数据科学家。“
如今,Nitin做能支持耐克的重要产品规划决策的预测。
他还想纠正一个关于数据科学家的错误观念。他说:“人们认为我们花费所有的时间来构建复杂的算法,但我们大部分时间都花在清理数据上,以便将其转化为可用的格式”。一旦一切能正常工作,分析立刻就会发生。“但是到那个地步,需要做大量的细节工作和解决问题。”
她最近读什么书?
P.G. Wodehouse的《布兰丁城堡的塘鹅》
她喜欢喝什么?
埃塞俄比亚浅度烘培咖啡
Ye Zhao
作为声田(Spotify)的新型自助式服务广告平台Ad Studio的数据科学家,Ye寻找有助于音乐公司做出产品决策的洞察。这本质上是一个流媒体音乐公司的营销工作。但Ye一开始是一个物理学家。
她一直对物理学感兴趣,在学术界做过物理学研究,甚至还有一个以她命名的小行星来证明它。她最终怎么就选择在声田工作的?她说:“我巴不得数据科学能采用物理学的严谨和技术性的部分,并将其应用于一个引人入胜的话题:人类行为。”
她把所有你希望从小行星物理学中看到的极客般的、热爱泰迪熊般的创客精神带到了她在音乐公司的工作中。她说:“我们在一个由2000个LED组成的自定义LED阵列上进行了物理数据可视化,以在声田上显示美国的流媒体数据。这是硬件、后端和数据工作的完美结合。我们是在奇思妙想周(译注:hackweek的意思大致是,给你一周的时间,找一个感兴趣的项目,找几个人组个队,然后把想法实现出来)期间做的。”
她最近读什么书?
Kurban的《阿里和尼诺》。她说:“这是关于一个穆斯林王子和格鲁吉亚公主之间的种族通婚。
她喜欢喝什么?
咖啡。她说:“绝对是咖啡,如果没有咖啡,我无法开始新的一天。我偶尔也会在晚上喝香槟。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11