京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据科学团队的自测题
数据科学家具备很多相邻领域的技能,至少是基本技能(比如工程、开发和运维、产品管理、数学、研究、写作、商业等等),团队最容易出问题的地方之一,就是他们无法专注于那些需要动用这一整套技能才能完成的工作 团队是否拥有足够的数据,以及相应的工具来高效地处理这些数据。如果处理数据时困难重重:因为和生产系统相冲突,没有被文档化,或者收集方式前后不一致,甚至根本就不存在……这个时候,数据科学团队要及时出业绩就很难了。 团队必须能自信地报告负面结果,否则正面结果也会失去大家的信任。数据科学团队需要能“抓关键”的决策者,而这些决策者必须实事求是地面对数据和证据。
原文翻译:
虽然数据科学风头正盛,但它依然是一个比较年轻的学科,还有很多基础性的问题有待解答。数据科学家究竟是做什么的?成为数据科学家应当接受怎样的教育培训?数据科学家的职业道路是什么样的?最近,我一直在思考一个相关的问题:一个高效的数据团队的标志是什么?
说起出色的数据科学工作,我们最先想到的最重要的标准往往是“有没有大量的数据?”而我主张采用一个涵盖面更广的清单,涉及团队采用的流程、为团队提供支持的基础设施,以及团队与公司其余部分之间的界限。如果这些事情安排妥当,让团队专注于他们自己的问题,并减少围绕这些问题产生的摩擦,那么,数据科学家就会拿出优异的表现。
这种方法借鉴自joelonsoftware.com的乔尔提出的软件工程团队测试方式。你应当能快速对每个问题作出肯定或否定的回答。肯定答案越多,情况就越乐观。
这是对团队基本状况的衡量,优秀的团队可能存在其他各个方面的差异。这些问题既是关于团队本身,也是关于团队所处的生态系统,但依照我的经验,数据科学团队由于深深植根于公司内部,它必须敏锐地关注周遭的环境。你还可以换一个角度思考:假如你想加入这个团队,你会问些什么问题?
问题
1.你们绝大部分时间都在做耗时一天以上的项目吗?
2.公司有专门的工程师负责数据基础设施吗?
3.公司其他人可以不经过数据科学家,直接访问基本数据吗?
4.你们可以在不影响生产系统表现的情况下访问数据吗?
5.你们做分析的时间多于等待数据的时间吗?
6.重大架构会文档化吗?
7.测量手段会被视为最小可发布产品的一部分吗?
8.对于在收集到的数据中发现并修复错误,你们有设专门的流程吗?
9.已经完成的研究工作会被文档化并存放在某个中心位置吗?
10.团队在将工作共享出去之前,有一个常规的审查流程吗?
11.你会通过做实验去检测决策带来的影响吗?
12.你能没有后顾之忧地报告负面结果吗?
13. CEO(或其他负责人)能说出团队在当季做出的至少一个贡献吗?
14.公司在进行产品和业务规划流程时,会来咨询数据科学家吗?
优秀的数据科学工作是建立在一组基本需求层次之上的:强大且受到良好维护的数据基础设施,免受杂事干扰的环境,高质量的数据,强大的团队研究流程,能“抓关键”的开明决策者。
第一组问题(1-3)的重点是考察数据科学团队是否免受一些周边问题的干扰,通过改善基础设施、改进工具或交由专门人员处理,这些周边问题就能得到更好的解决。因为数据科学是一个跨学科领域,数据科学家具备很多相邻领域的技能,至少是基本技能(比如工程、开发和运维、产品管理、数学、研究、写作、商业等等),团队最容易出问题的地方之一,就是他们无法专注于那些需要动用这一整套技能才能完成的工作。如果大部分时间都用来响应临时请求、为简单的数据访问提供支持,或是管理数据管线,那就会挤占真正的数据科学工作。正因为他们可以很好地胜任这些周边工作,公司才需要设置严格的规定,确保他们不必去做。
没有丰富的数据,数据团队的工作就是盲目的,而第4-8个问题就考察了团队是否拥有足够的数据,以及相应的工具来高效地处理这些数据。如果处理数据时困难重重:因为和生产系统相冲突,没有被文档化,或者收集方式前后不一致,甚至根本就不存在……这个时候,数据科学团队要及时出业绩就很难了。这些问题也衡量了团队在公司里得到的信任程度;如果产品团队不能从数据科学团队那里得到好处,对建立和维护数据收集系统的重视程度就会打折扣。
团队内部流程(第9-11个问题)保证团队所做的是高质量的研究工作,这些工作能建立并维护它在公司内部得到的信任。数据科学团队所服务的对象大多没有能力去验证团队的工作成果,所以,团队自身要负责记录自己的工作,使之接受严格的同行评议,并将结果传播出去。这一点不言而喻:受控实验是数据科学武器库中最重要的一项工具,一个团队若不经常使用它,那一定是有问题的。
如果数据科学团队被强制要求,即使相关证据显示产品有问题,也必须让产品显得完美,那就是公司领导层出了问题。团队必须能自信地报告负面结果,否则正面结果也会失去大家的信任。数据科学团队需要能“抓关键”的决策者,而这些决策者必须实事求是地面对数据和证据。具体怎么衡量呢?可以看公司内部是否需要数据科学团队的参与,领导者能否快速确定,数据科学如何帮助自己的团队取得成功。最后的第12-14题试图考察这些方面。
这份清单显然是不彻底的,也并不完全适合推而广之。数据科学的界限划分仍然是人们争论不休的话题。纯粹着眼于构建数据产品的团队应该会有非常不同的观点,那些刻意模糊数据科学和工程数据界限的人应该也有不同意见。所有数据团队之间究竟有没有共同点呢?请畅所欲言,提出新的问题,或告诉我们,上述哪几个问题并不广泛适用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18