京公网安备 11010802034615号
经营许可证编号:京B2-20210330
卓越数据科学家的四大特征
对于那些希望在大数据时代掘金的公司来说,成功的关键是找到数据科学家, 并围绕数据科学家搭建团队。如今优秀的数据科学家一将难求, 而卓越的数据科学家更是灿若晨星。 如何才能发现真正改变企业乃至行业未来的伟大的数据科学家呢?
Thomas Redman在哈佛商业评论博客中发表了一篇关于区分好的数据科学家和伟大的数据科学家的文章, IT经理网编译如下。
好的数据科学家能够帮助你从浩如烟海的数据中发现你无法发现的规律, 而伟大的数据科学家可以发现一个更大的世界, 他们采用数据, 但不完全依赖于数据。
在过去的几年里, 我有幸能够和上百个好的统计学家, 分析师和数据科学家合作。 其中有一些可以称之为“伟大”。 我发现, 这些伟大的数据科学家们都具备四大特征, 是那些好数据科学家所不具备的。
好奇心
最近有很多人都在提到好奇心是数据科学家的必要素质。 这没错, 和任何领域的科学家一样, 数据科学家也需要具备基本的好奇心。
而伟大的数据科学家将好奇心发展到极致。 他们热衷于研究这个世界, 他们会为了发现事物的规律和原因而兴奋不已。他们从数据中去发现事物的规律和原因。 面对数据 他们会从数据的不同角度来进行研究, 进而去发现别人所看不到的规律。
一定的数学水平
伟大的数据科学家能够发现别人看不到的东西。 举个例子来说, 我以前在一个投行碰到过一个实习生。 他现在已经是一个大的媒体集团的首席数据科学家。 在他第二天上班的时候, 老板给了他一叠报告。 他简单扫了一眼报告, 发现了一个关于回报率的计算错误。 他有花了一个小时验证了这个错误并算出正确答案。
重要的是, 几百人都看过这份报告, 而这是一个顶级的投资银行, 肯定有一些相当好的分析师也看过这个报告, 而只有他看出了这个错误。
在描述现实世界的时候, 数学是一种非常有效的语言(爱因斯坦说是“难以置信的有效)。 伟大的数据科学家对这种语言具备一种天生的感觉, 这些甚至是一些好的数据科学家所做不到的。
坚持
伟大的数据科学家在很多方面都能表现出坚持的特点。 前面说的实习生, 看了一眼发现了错误, 花了一个钟头就验证出来了。 实际上数据分析很少能这么快。 就像BT的CIO Jeff Hooper在贝尔实验室时有句名言:“数据不会轻易地把秘密告诉你, 你需要把秘密从中榨出来。”
这说的一点没错。 即便在最好的情况下, 数据也常常是不完整甚至存在错误的。 而大部分数据最后都和你要解决的问题无关。 盯着这些“噪音”数据工作是一项单调无趣的工作。 好的数据科学家可能会转而研究别的问题, 而伟大的数据科学家会坚持继续研究。
数据科学家的另外一个坚持就是他们会坚持表述自己的发现。 这一点, 在大的企业中, 甚至可能比“噪音”数据更加会令人沮丧。 还是拿前面那个实习生的例子。 他工作第二天就发现了这个错误, 而他需要整个实习期都要来“捍卫”他这个发现。 出了错误的部门肯定会死不承认, 而别的部门就想看笑话。 数据科学家夹在其中, 需要足够的坚持才能把正确的观点传达出来。
技术能力
掌握最新的数据分析方法很重要, 更重要的是, 要有具备对统计学的知识和热情。 简单的说, 数据分析包括两类:描述型分析和预测型分析。 描述性分析已经很难了。 而预测型分析则更加棘手, 它充满了不确定性。
伟大的数据科学家能够驾驭不确定性。 他们知道预测的哪些部分是基于真实的观察, 哪些因素是基于假设的。 他们知道要使预测有效, 哪些条件必须满足。 哪些因素会导致预测失效, 哪些未知因素可能会导致预测错误等等。 他们会量化风险。 他们会设计一些小型实验来验证或者推翻某些假设。
总之, 这不是一种“数学技能”, 而是长期在复杂的工作中,经过了无数成功和失败后培养出来的一种能力。
伟大的数据科学家非常稀少, 他们就是数据科学界的迈克尔-乔丹, 朱莉娅-罗伯茨, 或者帕瓦罗蒂。 如果企业需要认真地把宝压在从大数据和数据分析上, 那么你需要找到一个到两个这样的人, 给他们配备团队, 营造好的环境, 让他们按照自己的方式去工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22