京公网安备 11010802034615号
经营许可证编号:京B2-20210330
卓越数据科学家的四大特征
对于那些希望在大数据时代掘金的公司来说,成功的关键是找到数据科学家, 并围绕数据科学家搭建团队。如今优秀的数据科学家一将难求, 而卓越的数据科学家更是灿若晨星。 如何才能发现真正改变企业乃至行业未来的伟大的数据科学家呢?
Thomas Redman在哈佛商业评论博客中发表了一篇关于区分好的数据科学家和伟大的数据科学家的文章, IT经理网编译如下。
好的数据科学家能够帮助你从浩如烟海的数据中发现你无法发现的规律, 而伟大的数据科学家可以发现一个更大的世界, 他们采用数据, 但不完全依赖于数据。
在过去的几年里, 我有幸能够和上百个好的统计学家, 分析师和数据科学家合作。 其中有一些可以称之为“伟大”。 我发现, 这些伟大的数据科学家们都具备四大特征, 是那些好数据科学家所不具备的。
好奇心
最近有很多人都在提到好奇心是数据科学家的必要素质。 这没错, 和任何领域的科学家一样, 数据科学家也需要具备基本的好奇心。
而伟大的数据科学家将好奇心发展到极致。 他们热衷于研究这个世界, 他们会为了发现事物的规律和原因而兴奋不已。他们从数据中去发现事物的规律和原因。 面对数据 他们会从数据的不同角度来进行研究, 进而去发现别人所看不到的规律。
一定的数学水平
伟大的数据科学家能够发现别人看不到的东西。 举个例子来说, 我以前在一个投行碰到过一个实习生。 他现在已经是一个大的媒体集团的首席数据科学家。 在他第二天上班的时候, 老板给了他一叠报告。 他简单扫了一眼报告, 发现了一个关于回报率的计算错误。 他有花了一个小时验证了这个错误并算出正确答案。
重要的是, 几百人都看过这份报告, 而这是一个顶级的投资银行, 肯定有一些相当好的分析师也看过这个报告, 而只有他看出了这个错误。
在描述现实世界的时候, 数学是一种非常有效的语言(爱因斯坦说是“难以置信的有效)。 伟大的数据科学家对这种语言具备一种天生的感觉, 这些甚至是一些好的数据科学家所做不到的。
坚持
伟大的数据科学家在很多方面都能表现出坚持的特点。 前面说的实习生, 看了一眼发现了错误, 花了一个钟头就验证出来了。 实际上数据分析很少能这么快。 就像BT的CIO Jeff Hooper在贝尔实验室时有句名言:“数据不会轻易地把秘密告诉你, 你需要把秘密从中榨出来。”
这说的一点没错。 即便在最好的情况下, 数据也常常是不完整甚至存在错误的。 而大部分数据最后都和你要解决的问题无关。 盯着这些“噪音”数据工作是一项单调无趣的工作。 好的数据科学家可能会转而研究别的问题, 而伟大的数据科学家会坚持继续研究。
数据科学家的另外一个坚持就是他们会坚持表述自己的发现。 这一点, 在大的企业中, 甚至可能比“噪音”数据更加会令人沮丧。 还是拿前面那个实习生的例子。 他工作第二天就发现了这个错误, 而他需要整个实习期都要来“捍卫”他这个发现。 出了错误的部门肯定会死不承认, 而别的部门就想看笑话。 数据科学家夹在其中, 需要足够的坚持才能把正确的观点传达出来。
技术能力
掌握最新的数据分析方法很重要, 更重要的是, 要有具备对统计学的知识和热情。 简单的说, 数据分析包括两类:描述型分析和预测型分析。 描述性分析已经很难了。 而预测型分析则更加棘手, 它充满了不确定性。
伟大的数据科学家能够驾驭不确定性。 他们知道预测的哪些部分是基于真实的观察, 哪些因素是基于假设的。 他们知道要使预测有效, 哪些条件必须满足。 哪些因素会导致预测失效, 哪些未知因素可能会导致预测错误等等。 他们会量化风险。 他们会设计一些小型实验来验证或者推翻某些假设。
总之, 这不是一种“数学技能”, 而是长期在复杂的工作中,经过了无数成功和失败后培养出来的一种能力。
伟大的数据科学家非常稀少, 他们就是数据科学界的迈克尔-乔丹, 朱莉娅-罗伯茨, 或者帕瓦罗蒂。 如果企业需要认真地把宝压在从大数据和数据分析上, 那么你需要找到一个到两个这样的人, 给他们配备团队, 营造好的环境, 让他们按照自己的方式去工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22