登录
首页精彩阅读10个表明数据科学能力成熟的迹象
10个表明数据科学能力成熟的迹象
2016-04-05
收藏
如果你想造一艘船,

不要鼓励人们去伐木、去分配工作、去发号施令。

你应该做的是,教会人们去渴望大海的宽广无边和高深莫测。

——安东尼·德·圣-埃克苏佩里

在我们与美国政府、商业和国际组织的多年合作工作中,我们已经具备了帮助我们的客户设计和建立一个数据科学功能以支持和驱动他们的任务的能力。这些任务包括提高健康水平、保卫国家、合理调配能源布局、更好地服务公民和退伍军人、提升医药研究水平、等等。

通常情况下,我们的业务已经转向为练习组织运作方式的转型——“建设一种能力”意味着建设一种文化来支持和充分利用数据科学。在许多情况下,这种文化的改变能够为世界上的许多挑战性难题提供方向——贫困、疾病爆发、海洋健康等等。我们已经遇到了许多成功组织结构、技术水平、科学技能和算法模式。

基于这些经验,我们在这里分享我们的观点

如何评估您正在建设的数据科学能力是否已经成熟。这里是我们总结的一个成熟的数据科学能力所具备的特点TOP10,以下排名不分先后。

一个成熟的数据科学组织会……

1.将所有数据和数据访问公开化

让我们从弄清楚一件事开始:Silossuck!大多数在数据科学学习曲线上的早期组织会耗费大量时间收集数据而不去分析数据。而成熟的数据科学组织认识到,为了成功,他们必须使他们的成员能够访问和使用所有可用的数据——不是一部分数据、不是数据的一个子集、不是一个例子,而是所有的数据。律师不会只带着部分支持他们的证据出庭,他们会带上全部支持证据。同样,成熟的数据科学组织使用他们所有的数据来了解他们的业务范围,需求和性能。成功的组织会花时间去了解他们收集的所有资料,了解其用途和内容,并允许其被方便地访问。

最近的一些文章指出大数据和数据科学是相互排斥的:专注增加数据收集(大数据)牺牲了质量分析(数据科学)。我们不这么认为。它们在数据驱动的决策上相互促进,并能在分析方法的创新上获得巨大回报。

大数据并不是数据量,而是“全部数据”——用新奇有趣的方式连接不同数据源,以促进数据科学的探索,以及用于强大的预测和规则分析的所有数据资源的探索。

成熟的数据科学离不开公开所有数据的访问权限。包括规范元数据、访问协议和发现机制。直到你公开所有的数据,你的组织才会成熟。

组织的文化因素很重要。我们也看到过许多组织仍然使用把数据权限当成拦路虎:我们听说我们无法获得数据,因为数据管理者会使我们的访问会受到限制。管理是必要的,但它不能是一个人或团体控制数据访问的借口。放手吧,让数据探索和创新搞起来!

2.全面使用Agile并利用dataops

(即,DevOps的数据产品开发)。

一些传统组织陷在旧的管理流程和发展方式中。如果您的IT和发展部门提需求需要花一年或更多的时间,你可能会体验到这种感受。这些组织拒绝改变——因此,对新工具的需求要经过评审委员会的评审和无休止的架构/设计部门的支出核算。通常,很多精力耗费在只是研究建议解决方案的可行性上了。其他时间,一个委员会将决定哪些是最为紧迫的问题。为了实现数据科学的成熟与成功,这种冗长的流程必须被打破。官僚主义在科学界无用,在数据科学方面也没有用处。科学界感谢探索,Agile,快速失败的实验设计(见“7.…感谢快速失败的合作文化”)。

就像Agile开发深谙用户故事,缩短了冗长的反复提需求和延迟的流程,Agile数据科学既需要与企业密切合作,也需要实验的自由。Agile不是一种软件开发的方法论,而是一种思维倾向。它渗透到所有成熟水平的组织。上次你的CEO或高管举办回顾或Scrum会议是什么时候?理解如何推动一个灵活的文化和组织、技术共同运行可能具有挑战性,但因其合作方式和培养出的创造力,它是非常有益的。

有一种AgileDevOps的数据产品开发方法是至关重要的-我们称之为dataops。Dataops与DevOps原则相同:产品开发人员和最终用户之间的紧密合作业务;简明清晰的需求收集和分析周期;较短的迭代周期产品发布(包括成功和快速失败的机会);更快的上市时间;更好的定义你的MVP(最小可行产品)以更低的产品失败率取得快速成功;创建一个动态的、有参与感的团队氛围。除了这些一般的Agile的特点,dataops还具备加速现时数据分析能力,随之开拓了新的快速数据结构(如读取数据湖架构),使以前不可能的分析变成可能。dataops将精确的重点放在每一个MVP和相应的SCRUMsprints,最大限度地减少团队因漫长的审查周期和不同项目间的认知转换成本而造成的停顿时间。

成熟的数据科学能力满足一个Agiledataops环境的全部条件。

3.利用数据狂人与企业合作(即数据冠军、编程马拉松等)

生活在一个圈子中的数据科学团体会错过圈子外最好的社区。能造成良好社会效应的数据科学活动,包括公开的或内部的竞赛(如Kaggle),是提炼技能、学习新知识或与其他部门的业务合作的一个好方式。

此外,成熟的数据科学团体不会自己单独进行尝试,而是与组织的其他部门一同协作。成功策略之一是鼓励内部科学竞赛,这有利于团队建设和整合。成熟的数据科学组织有一种合作文化,数据科学团队会与企业合作,使用数据解决关键问题。

另一种方法是内部众包(组织内)-这对于将最好的问题平面化供数据科学家解决尤为有效。成熟的数据科学能力内部众包了数据科学处理流程里的多个不同的任务,包括数据选择、数据清理、数据准备与转换;集合模型生成;模型评价;和假设精炼化(见“4.……遵循严格的科学方法,,即测量、实验、纪律化、迭代、精炼所需的假设”)。由于数据清理和准备会消耗整个项目50-80%的经历,你可以通过并行化(通过众包)这些清理和准备工作,特别是通过众包,分配给组织里最熟悉特定的数据产品和数据库的人,显著节省了项目时间,并减少了风险。

此外,算法不能解决所有问题。让算法了解所有可能的情况下的结果并选择正确的结果仍然是极为困难的。人类仍然在不断追寻着,人们深知挑战的背景是对数据的实体解释并建立精确的模型。

4.遵循严格的科学方法,即测量、实验、纪律化、迭代、精炼所需的假设

求知心和无纪律是不相容的。这并不意味着约束、限制想象力或官僚化。一些组织会雇用一些数据科学家将他们安排在小房间里,并期待即时结果。另一种情况则是,数据科学家在IT组织里负责操作,而不是发现和创新。

成熟的数据科学能力建立在科学方法的基础之上。首先,进行观察(即,收集对您的业务产生影响的对象、事件和过程的数据)——收集数据,以便在您的业务流程中的适当的地方嵌入测量系统或流程(或人员)来了解您的业务。思考有趣的问题,探索,然后与您的业务伙伴制定可供实验的假设。当你有了一套好的问题和假设,然后测试他们的分析数据,制定一个科学的数据模型,或者设计一个新的算法来验证每一个假设,或者细化的假设和迭代。这种方法将确保值是设定在正式科学严谨的应用之上。这是一个成熟的数据科学能力无需置疑的特点。

科学流程的关键部分之一是了解你样本的局限性。寻找和测试选择偏差是关键。同样重要的是要理解“大数据”并不意味着结束不完整的样本(不公平抽样)或样本方差(自然多样性)。

5.吸引和雇用各种参与者,给予他们探索的自由

关键词:各种。一大堆数学书呆子有什么好玩的?(三个统计人员一起外出打猎。过了一会儿,他们发现一只兔子。第一个统计学家在一米范围内瞄准并射偏了兔子。第二个在一米内内瞄准但没有射中兔子。第三个人大叫“我们打中了!”)一些组织正在寻找伟大的程序员的数据科学家,他们也理解和运用复杂的应用数学,知道很多关于具体的业务领域,能与所有利益相关者的沟通。或许会有一到两个这样的人存在,我们称之为紫色的独角兽。成熟的组织将数据科学视为一项团队运动,每个成员都会贡献宝贵的独特技能和观点。

他们的技能和能力如下:先进的数据库/数据管理和数据结构,智能元数据索引,搜索,检索,数据挖掘机器学习)和分析(KDD=数据知识探索);统计和统计程序设计;数据与信息可视化;挖掘网络分析图(一切都是图!);语义(自然语言处理、本体);数据密集型计算(如Hadoop,Spark,云,等);建模与仿真(计算机数据科学);和特定领域的数据分析工具。

但不要以为每个人都一开始就要有这些技能中的至少一个——一些最好的数据科学组织,通过提炼目前员工中能够促成数据科学成功的核心能力,培养这些技能(即使在非技术培训的员工范围内)。这些核心能力包括10个C:好奇(好奇)、创新(创新),沟通,协作,勇敢的解决问题,致力于终身学习、咨询(可以做,会做的态度),冷静的压力下(坚持,应变能力,适应性和模糊性),计算,和关键思想家(客观分析仪)。

多元化观点的益处是多方面的。它们使提出的问题更有趣,但更重要的是,它们使答案更有趣、有用、有益。更大的背景下的答案可以产生更大的影响。成熟的数据科学能力意味着,你需要的不仅仅是数学或计算机科学方面的人。成熟的组织能够完美整合业务专家、中小企业、“数据讲故事的人”,创新的“数据艺术家”,然后给予他们探索和发掘数据资产的全部权力的自由。这种富有多样性的团队输出将比任何紫色独角兽更为丰富。记住,拥有一匹马和一头鲸比独角兽更好!

6.毫不留情地问正确的问题,并不断寻找下一个。

一个成功的、成熟的数据科学能力的基础是能够提出正确数据类型问题的能力。这是基于理解企业如何运作或经营的挑战体现在自身身上。最好的数据科学团队有着前面提到的所有优秀品质(见“5…吸引和保留不同的参与者,使他们自由地探索。”):好奇、创意、沟通、协作、勇敢的问题解决者、终身学习者、实干者、有韧性。

成熟的数据科学能力的展现在不懈追求新问题(甚至可能是之前永远不会被问到的问题)和在问题中提出疑问!数据科学成熟使组织能够从企业的整体层面上去提出一些尖锐的问题,只需规定如何询问这些问题,而不害怕得到“错误的答案”。

在这种情况下,随着数据科学能力的成熟的是分析能力的成熟。高级分析往往被描述为超越传统商业智能的分析的新阶段,包括描述性分析(后见)和诊断分析(监督)。当前高级分析包括了这些新阶段:预测分析(远见)和规范分析(充分地洞察你的业务,知道哪些决定、行动或干预将导致最佳的、最优的结果)。分析的下一个新兴阶段成熟是认知分析(“正确的景象”)-知道你的数据(在正确的时间,在正确的语境,正确的使用案例。这种“认知”的能力不只是得到正确的答案,还要能提出正确的问题(特别是从来没有被要求或考虑的问题)。分析成熟度是数据科学能力的最高水平成熟。正如谚语所说:“最坏的问题是你不问的那个问题。”

7.感谢快速失败(fast-fail)的合作文化。

文化是一种很难定义的东西,但是如果你用文化来评估一个团队,它是很好的指标。有些组织害怕失败,或有一种“不赞成”文化。他们更加注重战略而不是文化。但不少企业专家提醒我们“文化早餐策略(或午餐)”,因此,你对数据科学文化所做的准备要早于你的数据科学策略。承认错误是一回事,但有目的地用你的数据去探索未知并不是一个错误。你可以通过自我提问测试你的组织成熟度:当我的假设失败时会发生什么?快速失败的心态就是这句话表达的含义:“好的判断来自经验。而经验来自坏的判断。”

真实的数据科学(基于严谨的科学方法论,见4.……遵循严格的科学方法,即测量、实验、纪律化、迭代、精炼所需的假设)探索那些可以通过agility的多个假设的迭代很快学会的事物。这可能需要你邀请你的业务合作伙伴探讨你的数据‐使用DataOps(见“2.……全面使用Agile并利用dataops(即DevOps的数据产品开发)”)。拥有数据和工具直接关系到它的成功和成熟(见“1.……将所有数据和数据访问对其成员开放。”)。成熟的数据科学能力会考虑到一个迭代的fast-fail文化可能会帮你实现最有价值的发现,做出以证据为基础的最好的决定,并为您的组织提供最具创新性的选择。

一个项目失败的阴影往往难以被克服。很难界定花费有限的资源却发现假设是错误的——来自知道在文化中那些没有做的事常常会失去或不被庆祝的价值。一个成熟的数据科学能力和传统的A/B测试相似。设计实验来测试、用评估替代假说,其中一个可能包括一些干预或调整(治疗样本)二是零假设(适用于控制,未经处理的样品)。通常情况下,这些实验中的一个将失败,另一个不会。这是一个测试的全部要点。如果一个组织不能接受失败,那么他们就无法获得成熟的数据科学。

值得强调的是,快速失败构成了机器学习算法的分析基础。具体而言,许多分类算法的目标是尽可能准确地定义边界(尽管是复杂的)来区分不同类别的对象。

这个边界可能是线性的(例如,如果你的团队比我的团队获得更多分数,你便获胜),它也有可能是倾斜的(例如,如果你A+B两门考试的总成绩是140(满分200)然后你便通过这门课程),或者它可能很复杂(当你处理高维的复杂数据时,超平面能够用支持向量机SVM)算法将两个类别区分开来)。

为了在复杂的分类规则之间划分边界(例如,商业决策、产品选择或类标签),这个问题的空间可以表示为一个在不同区域的边界被精确地定义的映射的练习。

沿每一个“英寸”确定边界的位置需要详细、全面的调查。例如,如果你想检验当你打折时你的客户会在黑色星期五购买你的产品这一假设,那么你需要尝试多种折扣(10%,20%,30%,40%,甚至0%)看哪里是真正的边界。在确定你的投资回报率优化的边界上,你的利润率是非常关键的,这意味着寻找边界两侧的点(失败和成功的条件),直到找寻边界点最后形成一个框架。在这种情况下,快速失败是必要的,否则资源投资就浪费了。

8.通过插图和讲故事来展示自己的见解

大多数组织都有某种形式的报告。这通常集中产生于月度或每周回顾中,其中折线图柱状图或饼图会说明了在报告中的时间内发生了什么。这意味着,该组织的能力不会超越问“发生了什么,什么时候?”这个水平,它局限于描述性分析的世界里。它为预测和规范分析的兴起提供契机。因此,成熟的数据科学组织将会问:“为什么会发生这样的事情,接下来会发生什么,我们能做什么来取得更好的结果?”并且组织可以通过询问“我应该对我的数据提出什么问题?”取得进一步成熟。

当有洞察力的产生来回答“如果怎么样会怎么样”问题(“什么可能发生”或“什么是所有可能的结果,如果我们…?),这些回答不能被简化为一个直线图或条形图来说明结果的影响。图表、美丽独特的插图不仅是你努力工作的证明,更会产生关键性的影响。成熟的数据科学能力聚焦于更难回答的问题,然后用新的和创造性的方式回答(说明),故事,和见解,数据显示出来。

因此,成熟的数据科学团队包括一个或更多的以艺术家的角度描绘数据和用数据讲故事的人。故事和可视化是我们在事实间建立联系的地方。它们使听者能够更好地理解上下文(什么?),为什么(这么说?),以及“什么将在未来发生”(现在会发生什么?)。

9.建立价值证明,而不是概念证明。

许多组织寄希望于从现成的数据科学中寻找答案。他们想利用供应商告诉他们会解决他们的问题特定的工具,所以他们成立了一个Hadoop环境(或类似的),将数据导入到它,问一个问题,看看系统是否有提供了现成的“正确答案”!对吗?

错!

成熟的数据科学能力意味着有条理地安排你的试验。什么是你真正希望你的试验证明的概念或真正的商业价值?价值证明改变了工作的价值命题。所以,更多的关注于价值(回答新的问题,开拓新的市场,获得新的见解),而不是那些你已经知道了答案的问题。因此,专注证明你正在建设的数据科学能力将是一个持续证明价值的旅程,(例如,10倍于许多我们已有的经验),这将解决组织最大的“未知的未知数。”



建立与价值的思想,用Agile来武装你所做的(见2.……全面使用Agile并利用dataops(即DevOps的数据产品开发))。DataOps文化庆祝成功的MVP(最小可行产品)-尽可能快的提供有价值的产品(而不是概念证明),从而使团队走向下一个成功。

10.将数据科学作为一种做事方式,而不是一件要做的事。

数据科学不仅仅是一个口号,或只是数据分析师或商业智能功能的一个标签。不要把它用来做一个更好的月度报告(“请呈上TPS报告封面”)。它当然不是一劳永逸的。

数据科学是组织思考方法和运作模式的根本转变。它包括以数据为核心的所有功能,是一种新的有趣的方式,使组织更具创新性。成熟的数据科学能力的证据是一个组织相信并以此为信条:“我们现在是时候开始思考将数据科学作为一种职业,而不是工作;作为企业文化,而不是企业议程;作为一种战略,而不是一个计谋;作为一种核心竞争力,而不是一个过程;作为一种行事方法,而不是一件要做的事情。”

最后,我们提供一些组织可能需要的识别当前成熟度的指标,以及国家走向大数据科学成熟的建议指标。


原文 | Peter Guerra & Kirk Borne翻译

 数盟

数据分析咨询请扫描二维码

客服在线
立即咨询