全新的大数据计算时代来临并不意味着人们不再需要直觉和创意!
美国总统奥巴马在 2012 年竞选中的成功很大程度上要归功于对量化分析的运用。例如,他的团队可以分析出哪些人在收到竞选宣传单张、电话或家访后更有可能去投票,从而改变那些关键 的“摇摆州”的局面。沃尔玛通过数据分析发现,在飓风袭击某地之前,不但当地对手电筒的需求会上升,某种果塔饼干的销量也会提升。这阵量化风还吹到了体育 界──畅销书《Moneyball》把量化分析的概念普及给了民众。但这些新的量化技巧到底是怎么回事?企业应该如何运用它们?
最近的三本书有助于管理层找到这些问题的答案:《大数据:改变我们生活、工作与思考的革命》(Big Data: A Revolution That
Will Transform How We Live, Work, and
Think)的作者维克多·梅耶-勋伯格和肯尼斯·库基耶分别是牛津大学互联网管治教授和《经济学人》的数据编辑;《预测型分析》(Predictive
Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die)的作者艾力·西格尔是 Predictive Analytics World
创始人及哥伦比亚大学前任助教;《跟上量化分析师的脚步》(Keeping Up with the Quants: Your Guide to
Understanding and Using Analytics)则由巴布森学院信息技术与管理教授托马斯·H·达文波特与韩国国防大学的
Jinho Kim
合著。前两本书着重讲了大数据与量化分析的威力,第三本书则指导企业如何利用这些技术。三本书既包含介绍也包含建议,加在一起,它们可以成为想理解这个复
杂数据时代的管理层的入门读本。
根据艾力·西格尔的估计,人类如今每天都会增加 2.5 万亿字节的数据。文字成了数据,机械的物理状态成了数据,我们所处的地理位置成了数据,甚至人与人之间的互动也成了数据。“很 多时候,数据的收集是被动的。你不但不需要做什么,甚至都不知道自己的数据被记录了。另外,由于存储成本大幅降低,我们没有什么理由要删除任何数据了,” 维克多·梅耶-勋伯格和肯尼斯·库基耶写到。两位作者用“数据化”一词来描述这种新现象。的确,数据淹没了我们,不过这究竟意味着什么?
当然,擅长有选择地进行数据分析的公司已经从数据中找出了各种有价值的关联。有些结论并不令人意外。例如西格尔发现那些会购买小绒垫垫在椅子腿下方 以保护地板的人的信用记录往往较好。还有一些结果则很出人意料。某些办公室里,吸烟者得腕管综合症的几率比不吸烟的人更低(或许是因为吸烟让他们休息得更 频繁)。素食者误机的比率也比较小(或许因为他们提前预定了特餐,所以不想错过这班飞机)。
不过,管理者要获得这样的信息,就必须从过去的“小数据”心态中彻底摆脱出来。梅耶-勋伯格和库基的书非常引人入胜,信息量也很足。他们提出了三个要点:
1.企业应该用全部的数据,而不仅仅是某一部分。在过去,企业没有经济能力捕捉、存储与分析关于其各类业务的全部数据,因此只能用其中的一部分。但如今像亚马逊这样的公司已经完全可以把每一个顾客的交易数据都捕捉和存储下来。
2.接受混乱。不准确的数据的危害比以前要小了,因为巨大的数据量可以弥补单一数据的不足。用作者们的话说:“更好不如更多。”
3.拥抱关联。对于很多目的而 言,有关联就足够了,人们不需要知道因果关系。梅耶-勋伯格和库基提到,某个关于二手车的分析发现橙色汽车发生故障的几率比其它颜色的汽车低一半。就算我 们不知道这背后的原因,橙色和故障的关联也是有价值的信息。(或许橙色车的车主更热爱汽车,因此更爱护它?)
大数据的另一个要点在于,很多对数据的应用和收集数据时的原始目的完全不同。距离来说,手机公司收集地理位置信息是为了有效地转接电话,但这些数据 也可以用来了解人们周末晚上去哪玩──这一信息对于预测房地产价格可能会有帮助。确实,梅耶-勋伯格和库基承认“数据的许多价值源自其次要用途和期权价 值,而非主要用途。”事实上,两位作者预测,“每组数据集都很可能包含内在的隐藏价值,现在人们正在抢着发现和捕捉它们。” 虽然如此,我们也要指出很多潜在的数据应用都游走在伦理、道德甚至法律边缘。例如一个人的社交网络可以被用来判断他的信用记录。假若他的朋友中多有信用记 录不佳者,那么根据“近墨者黑” 原理,他或她是不是也更有可能拖款?
西格尔的《预测型分析》主要讲的是如何将一个人做某件事──无论是拖款、升级有线电视套餐还是跳槽──的可能性量化。作者描述了如何通过量化技巧在 数据中寻找有价值的规律,从而帮助企业预估顾客、员工等人的行为。根据书中的信息,联邦快递能以 65% 到 90% 的准确率预测哪些用户更容易转用别家快递服务。美国公民银行(Citizen Bank)可以通过更加复杂的量化分析手法将支票诈骗带来的损失减少 20%。另外,惠普一直在依靠预测型分析来预判哪些员工更有可能离职,从而给经理们留出充分的时间挽留员工,或是为其离职做好准备。(有趣的是,惠普的某 个部门里,获得升职的员工若是薪水没有明显增加,反而更加容易离职。)
当然,每人的情况不同,出现“黑天鹅”事件的几率也必须考虑进去。但整体而言,人类的确是习惯性动物,这种惯性让企业得以预测某些行为发生的可能 性。此外,西格尔对“预报”和“预测”做了明确区分:“预报讲的是下个月在内布拉斯加州总共会卖出多少个甜筒,预测则会告诉你哪些内布拉斯加人最有可能买 甜筒。”
《预测型分析》的某些段落有点冗长(作者花了很长的一章专门讲 IBM 的华生电脑如何在美国的益智抢答节目 Jeopardy! 上获胜),但它仍然包含了足够多简明有力的见解,翻一翻至少是有益的。书中提到了所谓的“预测效应”。具体而言,预测效应是指哪怕预测的准确度只有微小提 升,都有可能极大节省开支。例如,西格尔说有家保险公司通过预测性分析将赔付率(赔款支出除以保费收入)减少了仅 0.5%,结果一年就省下了 5000 万美元。
知道预测性分析能帮公司省 5000 万美元是一回事,知道如何利用这种分析工具是另一回事。的确,管理者必须超越对着大数据和量化技巧惊叹的蜜月期,了解企业如何能够最好地从这个新的复杂计 算年代获益。《跟上量化分析师的脚步》一书就能提供很好的帮助。如书名所暗示,本书是给并非分析专家、但渐渐需要理解这一类专家的管理者(包括企业内部与 外部的)看的。
在本书中,作者达文波特与 Kim 介绍了量化分析师的思考方式。整个框架包括三大步:定义问题、解决问题、沟通结果。
1.定义问题。这一步看上去或许简单直接,其实不然。举例来说,若企业想要了解邮件直销的成功率,就会问“多少人收到邮件后会买我们的产品?”但其实应该问的是“有多少原来不会买我们产品的人,收到邮件后会买?”(即在本例中因果关系很重要,企业想知道的是邮件的效果如何。)
在定义问题时,管理者必须让所有利益相关者参与进来。这不仅仅是为了了解他们的观点,也是为了搞清楚在分析结束后他们会不会认同其结果。这里的一个关键问题是:这次分析会带来什么样的行动?达 文波特和 Kim 讲述了一家连锁餐厅的故事。这家餐厅想研究自己的菜单上的每一道食品的盈利能力。当管理者们被问到打算拿这次分析的结果来干什么时,一位管理者说打算取消 那些不赚钱的菜,但另外一位管理者则反驳说,餐厅在过去二十年里从来没有取消过一道菜。经过进一步讨论后,管理者们转而决定研究菜品定价,而非盈利能力。
2.解决问题。这一步由建模、数据收集和数据分析构成。作者强调了新信息源的价值──更多、更好的数据往往比更 好的用来分析那些数据的算法更加重要。举例来说,保险公司 Progressive 利用 FICO 公司提供的数据分析评估了某个特定顾客未来可能发生车祸的几率,从而超越了竞争对手。另外,在 Hadoop 和 MapReduce 等工具的帮助下,企业不仅可以考虑使用结构化的数据(例如顾客的年龄与收入),也可以开始用非结构化的信息(例如文字与图片)。
3.沟通结果,并采取行动。许多量化分析师都犯了一个错误:假定他们可以单纯“靠结果说话”。这是不对的。“把 结果呈现得越清晰,量化分析越能导向决策与行动──毕竟进行量化分析最初的目的就是这个,”达文波特和 Kim 写到。有时光是清晰还不够,结果还需要以引人入胜、友好的形式展现。举例来说,德勤咨询为 Delta 航空公司开发了一个 iPad 软件,让管理者能够迅速查询航班的运营情况。软件用不同的颜色表示各机场的状态,触摸地图上的某个机场则能够调出有关当地的额外信息。管理者若想深挖,还 可以进一步取得更细致的信息:员工、客服水平、相关问题。
《跟上量化分析师的脚步》中提到的一个重要观点是,全新的计算时代来临并不意味着人们不再需要直觉和创意。这点对于那重要的第一步──定义问题──尤其适用。“解决问题和决策的过程有一半是在于用富于创造性的方式定义问题 / 决策,从而让人们可以高效地解决它,”达文波特和 Kim 说。例如一位聪明的研究员卢俊翔(音)找到了一种方式来预测顾客对于电信业的终身价值。他很有创意地将问题重新定义为“生存分析”。这是一种生物统计技巧,用来决定某个生物群体中有多少能够存活超过一定的时间。
当然,大数据和预测性分析为我们带来了一些难题。隐私就是其中的一个热点话题。2012 年,美国的 Target 超市采用量化分析手法预测哪些顾客已经怀孕,从而引起了一场媒体风暴。(西格尔在《预测型分析》一书中讨论了这一事件。)此外,跟很多新工具一样,技术发 展的速度往往超越了法律与政府管治。根据梅耶-勋伯格和库基的说法,“我们的社会已经发展出一套用来保护个人信息的规则。但在大数据的时代,这些法律条款 基本上只是一条无用的马奇诺防线。”
另一个棘手的问题是如何为数据定价。在过去,企业花了很多心力去评估其品牌、专利、商业秘密以及其它知识财产的价值。现在我们也应该将数据纳入其中。但
是,企业在 Facebook
上收获的那些“赞”究竟值多少钱?谷歌的搜索信息全部加起来值多少钱?此外,消费者是否有权共享这些价值?尤其是当信息被收集起来,以和原本目的不同的方
式盈利的时候?
先抛开这些难题,有一件事情是肯定的:大数据和量化分析的时代刚刚开始。“将世界视为数据,视为数据的海洋,可以不断更深、更广地去探索它,这种思 维方式让我们对现实有了全新的视角,”梅耶-勋伯格和库基写到。那些正在尝试把握这一新现实的公司很可能会在竞争中胜出──这,很可能就是预测型分析为我 们画出的未来商业图景。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14