
成为一位卓越数据科学家必须要具备四大特征
对于那些希望在大数据时代掘金的公司来说,成功的关键是找到数据科学家, 并围绕数据科学家搭建团队。如今优秀的数据科学家一将难求, 而卓越的数据科学家更是灿若晨星。 如何才能发现真正改变企业乃至行业未来的伟大的数据科学家呢?
Thomas Redman在哈佛商业评论博客中发表了一篇关于区分好的数据科学家和伟大的数据科学家的文章。
好的数据科学家能够帮助你从浩如烟海的数据中发现你无法发现的规律, 而伟大的数据科学家可以发现一个更大的世界, 他们采用数据, 但不完全依赖于数据。
在过去的几年里, 我有幸能够和上百个好的统计学家, 分析师和数据科学家合作。 其中有一些可以称之为“伟大”。 我发现, 这些伟大的数据科学家们都具备四大特征, 是那些好数据科学家所不具备的。
好奇心
最近有很多人都在提到好奇心是数据科学家的必要素质。 这没错, 和任何领域的科学家一样, 数据科学家也需要具备基本的好奇心。
而伟大的数据科学家将好奇心发展到极致。 他们热衷于研究这个世界, 他们会为了发现事物的规律和原因而兴奋不已。他们从数据中去发现事物的规律和原因。 面对数据 他们会从数据的不同角度来进行研究, 进而去发现别人所看不到的规律。
一定的数学水平
伟大的数据科学家能够发现别人看不到的东西。 举个例子来说, 我以前在一个投行碰到过一个实习生。 他现在已经是一个大的媒体集团的首席数据科学家。 在他第二天上班的时候, 老板给了他一叠报告。 他简单扫了一眼报告, 发现了一个关于回报率的计算错误。 他有花了一个小时验证了这个错误并算出正确答案。
重要的是, 几百人都看过这份报告, 而这是一个顶级的投资银行, 肯定有一些相当好的分析师也看过这个报告, 而只有他看出了这个错误。
在描述现实世界的时候, 数学是一种非常有效的语言(爱因斯坦说是“难以置信的有效)。 伟大的数据科学家对这种语言具备一种天生的感觉, 这些甚至是一些好的数据科学家所做不到的。
坚持
伟大的数据科学家在很多方面都能表现出坚持的特点。 前面说的实习生, 看了一眼发现了错误, 花了一个钟头就验证出来了。 实际上数据分析很少能这么快。 就像BT的CIO Jeff Hooper在贝尔实验室时有句名言:“数据不会轻易地把秘密告诉你, 你需要把秘密从中榨出来。”
这说的一点没错。 即便在最好的情况下, 数据也常常是不完整甚至存在错误的。 而大部分数据最后都和你要解决的问题无关。 盯着这些“噪音”数据工作是一项单调无趣的工作。 好的数据科学家可能会转而研究别的问题, 而伟大的数据科学家会坚持继续研究。
数据科学家的另外一个坚持就是他们会坚持表述自己的发现。 这一点, 在大的企业中, 甚至可能比“噪音”数据更加会令人沮丧。 还是拿前面那个实习生的例子。 他工作第二天就发现了这个错误, 而他需要整个实习期都要来“捍卫”他这个发现。 出了错误的部门肯定会死不承认, 而别的部门就想看笑话。 数据科学家夹在其中, 需要足够的坚持才能把正确的观点传达出来。
技术能力
掌握最新的数据分析方法很重要, 更重要的是, 要有具备对统计学的知识和热情。 简单的说, 数据分析包括两类:描述型分析和预测型分析。 描述性分析已经很难了。 而预测型分析则更加棘手, 它充满了不确定性。
伟大的数据科学家能够驾驭不确定性。 他们知道预测的哪些部分是基于真实的观察, 哪些因素是基于假设的。 他们知道要使预测有效, 哪些条件必须满足。 哪些因素会导致预测失效, 哪些未知因素可能会导致预测错误等等。 他们会量化风险。 他们会设计一些小型实验来验证或者推翻某些假设。
总之, 这不是一种“数学技能”, 而是长期在复杂的工作中,经过了无数成功和失败后培养出来的一种能力。
伟大的数据科学家非常稀少, 他们就是数据科学界的迈克尔-乔丹, 朱莉娅-罗伯茨, 或者帕瓦罗蒂。 如果企业需要认真地把宝压在从大数据和数据分析上, 那么你需要找到一个到两个这样的人, 给他们配备团队, 营造好的环境, 让他们按照自己的方式去工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23