京公网安备 11010802034615号
经营许可证编号:京B2-20210330
2016年数据科学家将扮演什么角色?
数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。
Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领域仍处在早期发展阶段,对其定义不够准确。如果接受数据科学是一个“跨学科领域”这种大而全的说法,那么数据科学家的工作就是从不同形式的大量数据中提取知识或洞察。我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。
大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。作为消费者经济的参与者,我们访问任何网站或电子服务时,所产生的数据都会被挖掘,而数据科学家就要通过计算机科学、数据分析和复杂的商业知识,来收集、清洗、分析我们提供的数据,并据此进行预测。下面的图表列出了一名数据科学家所需要的技能集。我们可以发现,与一般意义上的大数据开发者或商业分析师不同,这个岗位的职责要求掌握多种技能集。
图1:数据科学家的技能集
Rivera 和 Haverson认为,之前的数据专业人员关注的是数据的流动过程和解释,而数据科学家更注重数学视角 —— 聚焦于从历史数据和当前数据中洞察出未来的模式。如果仅从字面上理解这两个词,“科学”意味着通过系统研究获得的知识;“数据”则是由定性化或定量化变量组成的信息集合。因此,数据科学家的字面定义应该是:一个系统性地研究信息的组织与性质的人。尽管统计人员和其他研究数据分析的人也扮演着重要的角色,但是Anjul Bhambari所描述的数据科学家既是分析师,又是艺术家,其角色注定是变革传统数据的分析和使用方法。
商业社交网站LinkedIn的成功,很好地证明了数据科学家为商业智能所带来的重大利好。作为一家几乎纯粹依赖其3.8亿名用户相互联系所产生数据的企业,LinkedIn正在利用受过正规培训、有着强烈好奇心的数据科学家们不断探索大数据的世界。LinkedIn与Facebook、Google等其他大型知识型企业都在利用数据科学家对大量的杂乱数据进行结构化,确定数据的价值大小,以及变量之间的系统性关系。
KPMG近期对企业高管的一项调查显示,99%的受访者认为大数据分析对于制定次年的战略非常重要。预计到2020年,每天产生的企业数据将超过240EB,在这一时代背景下,对于掌握了从数据中提取价值洞见能力的数据科学家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,对数据科学家的需求远远超过了供给,如果想跟上新型数据经济的步伐,仅美国的公司就需要雇佣14-19万名数据科学家。
令人讽刺的是,关于数据科学家的平均收入的数据却存在许多相互冲突的地方。不过,比较明显的是平均收入与对数据科学家的高需求是正相关的。如果雇主要求员工能够熟练使用数据挖掘算法、精通像R和Python这样的语言、又具备处理大型数据库(SQL或类似数据库)的经验,还得开发Java应用、处理NoSQL数据库(引用自某个职位要求,上述要求只占十分之一)——此外,还要能够将以上这些清楚地传达给非技术同事,那么平均12万美元的薪资看上去也就不那么过分了。
尽管数据科学家的角色与传统意义上的数据分析岗位有重合之处,但是区别也尤其明显。一名数据分析师或数据架构师能够从大规模数据集中提取信息。但是他们只掌握SQL查询命令和对数据进行切片的分析包。借助对机器学习的深刻了解和编程开发等方面的知识,数据科学家可以随心所欲地处理数据,挖掘出更深的洞见。他们摆脱了这些程序的束缚。普通的数据分析师会观察过去发生的事情,但是数据科学家必须具备长远的眼光,展望未来。通过应用先进的统计知识和复杂的数据建模,他们必须挖掘出数据中隐藏的模式,对未来做出预测。数据科学家所需要的技能成功的数据分析需要做到能够清洗、集成和转变数据 —— 这些都是数据科学家必须掌握的重要技能。将科学背景与计算分析技能结合在一起之后,你就能够“胜人一筹”。下面的图2列出了数据科学通常关注的几个领域。
图2.数据科学关注的领域
不过我们还是要更细致地探讨一下成为数据科学家所需要的实际技能。Mark van Rijmenam是Data Floq公司的CEO,为了能够开发出提出正确的问题并寻找正确答案的算法,他建议数据科学家掌握以下技能:统计技能、数学和伦理学技能,并且具备构建预测性模型的丰富经验。
来自LinkedIn的Ferris Jumah更是将所要求的技能进行了归类,尽管数据科学家可能需要的技能和担任的岗位角色纷繁复杂。
数据科学家必须做到:
以数学思维看待数据。学习诸如机器学习、数据挖掘、数据分析和统计学等技能十分重要。数据科学家需要从数学的角度对数据进行解释和分析。
使用一门常用语言,进行数据访问、探索和建模。掌握一门统计编程语言将是关键。R、Python或MATLAB等语言,以及类似SQL等数据库查询语言是最受追捧的技能。数据提取、探索和假设检验是数据科学实践的核心。
具备很强的计算机科学和软件工程背景。这需要掌握包括Java、C++或算法知识和Hadoop。这些技能将用于利用数据来设计系统架构。
与使用标准工具的普通程序员不同,数据科学家一般会使用各种各样的工具,而且工具时刻在更新。这是因为数据科学领域正在快速发展,许多新工具还远未成熟。尽管如此,下面我们还是精选了一些数据科学家常用的工具:
数据分析
在这方面,使用的工具其实就是数据科学家用于提取和分析数据的编程语言。一般来说是Python、R和SQL。
数据科学家可以选择自己用于提取和分析数据的数据库。处理合理大小的数据集时,最流行的选择是MySQL。进入大数据领域之后,他们通常会转向使用Hive或Redshift。
数据可视化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出来的数据可视化方式,数据科学家都可以利用D3.js实现。Tableau是目前市面上最流行的数据可视化工具,支持从数百个输入源汇集数据,并轻松地将这些数据转换成可视图表。
这或许是每天新增工具最多的一个领域了。知名度最高、使用最广泛的工具可能是Scikit-learn,它利用Python进行机器学习。然后当然还有Spark MLlib,这是Apache推出的针对Spark和Hadoop的机器学习库。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12