
【实例】数据科学家所需的技能和素质
对数据科学家的关注,源于大家逐步认识到,Google、Amazon、Facebook等公司成功的背后,存在着这样的一批专业人才。这些互联网公司对于大量数据不是仅进行存储而已,而是将其变为有价值的金矿——例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。
数据科学(datascience)是一个很久之前就存在的词汇,但数据科学家(datascientist)却是几年前突然出现的一个新词。关于这个词的起源说法不一,其中在《数据之美》(BeautifulData,TobySegaran、JeffHammerbacher编著,O’Reilly出版1)一书中,对于Facebook的数据科学家,有如下叙述:在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。”
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。
Google首席经济学家、加州大学伯克利分校教授哈尔·范里安(HalVarian,1947—)先生,在2008年10月与麦肯锡总监JamesManyika先生的对话中,曾经讲过下面一段话:“我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为20世纪90年代最有趣的工作?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”
范里安教授在当初的对话中使用的是statisticians(统计学家)一词,虽然当时他没有使用数据科学家这个词,但这里所指的,正是现在我们所讨论的数据科学家。
数据科学家所需的技能
数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才:
“所谓数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。”
数据科学家所需的技能如下。
(1)计算机科学
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2)数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境R最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(TheComprehensiveRArchiveNetwork)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
(3)数据可视化(Visualization)
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
将数据与设计相结合,让晦涩难懂的信息以易懂的形式进行图形化展现的信息图(Infographics)最近正受到越来越多的关注,这也是数据可视化的手法之一。
作为参考,下面节选了Facebook和Twitter的数据科学家招聘启事。对于现实中的企业需要怎样的技能,这则启事应该可以为大家提供一些更实际的体会。
Facebook招聘数据科学家
Facebook计划为数据科学团队招聘数据科学家。应聘该岗位的人,将担任软件工程师、量化研究员的工作。理想的候选人应对在线社交网络的研究有浓厚兴趣,能够找出创造最佳产品过程中所遇到的课题,并对解决这些课题拥有热情。
职务内容
确定重要的产品课题,并与产品工程团队密切合作寻求解决方案
通过对数据运用合适的统计技术来解决课题
将结论传达给产品经理和工程师
推进新数据的收集以及对现有数据源的改良
对产品的实验结果进行分析和解读
找到测量、实验的最佳实践方法,传达给产品工程团队
必要条件
相关技术领域的硕士或博士学位,或者具备4年以上相关工作经验
对使用定量手段解决分析性课题拥有丰富的经验
能够轻松操作和分析来自各方的、复杂且大量的多维数据
对实证性研究以及解决数据相关的难题拥有极大的热情
能对各种精度级别的结果采用灵活的分析手段
具备以实际、准确且可行的方法传达复杂定量分析的能力
至少熟练掌握一种脚本语言,如Python、PHP等精通关系型数据库和SQL
对R、MATLAB、SAS等分析工具具备专业知识
具备处理大量数据集的经验,以及使用MapReduce、Hadoop、Hive等分布式计算工具的经验
Twitter招聘数据科学家(负责增加用户数量)
关于业务内容
Twitter计划招聘能够为增加Twitter用户数提供信息和方向、具备行动力和高超技能的人才。应聘者需要具备统计和建模方面的专业背景,以及大规模数据集处理方面的丰富经验。
我们期待应聘者所具有的判断力能够在多个层面上决定Twitter产品群的方向。
职责
使用Hadoop、Pig编写MapReduce格式的数据分析
能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的SQL查询
能够使用SQL、Pig、脚本语言、统计软件包编写代码
以口头及书面形式对分析结果进行总结并做出报告
每天对数TB规模、10亿条以上事务级别的大规模结构化及非结构化数据进行处理
必要条件
计算机科学、数学、统计学的硕士学位或者同等的经验
2年以上数据分析经验
大规模数据集及Hadoop等MapReduce架构方面的经验
脚本语言及正则表达式等方面的经验
对离散数学、统计、概率方面感兴趣
将业务需求映射到工程系统方面的经验
数据科学家所需的素质
(1)沟通能力
即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。
(2)创业精神(entrepreneuership)
以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。Google、Amazon、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。
(3)好奇心
庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过的有价值的观点。
美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计算机化学家、海洋学家,甚至是神经外科医生等。也许有人认为这是人才流动性高的美国所特有的现象,但其实正如我们在第4章中所介绍的GREE一样,在日本也出现了一些积极招募不同职业背景人才的企业,这样的局面距离我们已经不再遥远。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15