京公网安备 11010802034615号
经营许可证编号:京B2-20210330
全新的大数据计算时代来临并不意味着人们不再需要直觉和创意!
美国总统奥巴马在 2012 年竞选中的成功很大程度上要归功于对量化分析的运用。例如,他的团队可以分析出哪些人在收到竞选宣传单张、电话或家访后更有可能去投票,从而改变那些关键 的“摇摆州”的局面。沃尔玛通过数据分析发现,在飓风袭击某地之前,不但当地对手电筒的需求会上升,某种果塔饼干的销量也会提升。这阵量化风还吹到了体育 界──畅销书《Moneyball》把量化分析的概念普及给了民众。但这些新的量化技巧到底是怎么回事?企业应该如何运用它们?
最近的三本书有助于管理层找到这些问题的答案:《大数据:改变我们生活、工作与思考的革命》(Big Data: A Revolution That
Will Transform How We Live, Work, and
Think)的作者维克多·梅耶-勋伯格和肯尼斯·库基耶分别是牛津大学互联网管治教授和《经济学人》的数据编辑;《预测型分析》(Predictive
Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die)的作者艾力·西格尔是 Predictive Analytics World
创始人及哥伦比亚大学前任助教;《跟上量化分析师的脚步》(Keeping Up with the Quants: Your Guide to
Understanding and Using Analytics)则由巴布森学院信息技术与管理教授托马斯·H·达文波特与韩国国防大学的
Jinho Kim
合著。前两本书着重讲了大数据与量化分析的威力,第三本书则指导企业如何利用这些技术。三本书既包含介绍也包含建议,加在一起,它们可以成为想理解这个复
杂数据时代的管理层的入门读本。
根据艾力·西格尔的估计,人类如今每天都会增加 2.5 万亿字节的数据。文字成了数据,机械的物理状态成了数据,我们所处的地理位置成了数据,甚至人与人之间的互动也成了数据。“很 多时候,数据的收集是被动的。你不但不需要做什么,甚至都不知道自己的数据被记录了。另外,由于存储成本大幅降低,我们没有什么理由要删除任何数据了,” 维克多·梅耶-勋伯格和肯尼斯·库基耶写到。两位作者用“数据化”一词来描述这种新现象。的确,数据淹没了我们,不过这究竟意味着什么?
当然,擅长有选择地进行数据分析的公司已经从数据中找出了各种有价值的关联。有些结论并不令人意外。例如西格尔发现那些会购买小绒垫垫在椅子腿下方 以保护地板的人的信用记录往往较好。还有一些结果则很出人意料。某些办公室里,吸烟者得腕管综合症的几率比不吸烟的人更低(或许是因为吸烟让他们休息得更 频繁)。素食者误机的比率也比较小(或许因为他们提前预定了特餐,所以不想错过这班飞机)。
不过,管理者要获得这样的信息,就必须从过去的“小数据”心态中彻底摆脱出来。梅耶-勋伯格和库基的书非常引人入胜,信息量也很足。他们提出了三个要点:
1.企业应该用全部的数据,而不仅仅是某一部分。在过去,企业没有经济能力捕捉、存储与分析关于其各类业务的全部数据,因此只能用其中的一部分。但如今像亚马逊这样的公司已经完全可以把每一个顾客的交易数据都捕捉和存储下来。
2.接受混乱。不准确的数据的危害比以前要小了,因为巨大的数据量可以弥补单一数据的不足。用作者们的话说:“更好不如更多。”
3.拥抱关联。对于很多目的而 言,有关联就足够了,人们不需要知道因果关系。梅耶-勋伯格和库基提到,某个关于二手车的分析发现橙色汽车发生故障的几率比其它颜色的汽车低一半。就算我 们不知道这背后的原因,橙色和故障的关联也是有价值的信息。(或许橙色车的车主更热爱汽车,因此更爱护它?)
大数据的另一个要点在于,很多对数据的应用和收集数据时的原始目的完全不同。距离来说,手机公司收集地理位置信息是为了有效地转接电话,但这些数据 也可以用来了解人们周末晚上去哪玩──这一信息对于预测房地产价格可能会有帮助。确实,梅耶-勋伯格和库基承认“数据的许多价值源自其次要用途和期权价 值,而非主要用途。”事实上,两位作者预测,“每组数据集都很可能包含内在的隐藏价值,现在人们正在抢着发现和捕捉它们。” 虽然如此,我们也要指出很多潜在的数据应用都游走在伦理、道德甚至法律边缘。例如一个人的社交网络可以被用来判断他的信用记录。假若他的朋友中多有信用记 录不佳者,那么根据“近墨者黑” 原理,他或她是不是也更有可能拖款?
西格尔的《预测型分析》主要讲的是如何将一个人做某件事──无论是拖款、升级有线电视套餐还是跳槽──的可能性量化。作者描述了如何通过量化技巧在 数据中寻找有价值的规律,从而帮助企业预估顾客、员工等人的行为。根据书中的信息,联邦快递能以 65% 到 90% 的准确率预测哪些用户更容易转用别家快递服务。美国公民银行(Citizen Bank)可以通过更加复杂的量化分析手法将支票诈骗带来的损失减少 20%。另外,惠普一直在依靠预测型分析来预判哪些员工更有可能离职,从而给经理们留出充分的时间挽留员工,或是为其离职做好准备。(有趣的是,惠普的某 个部门里,获得升职的员工若是薪水没有明显增加,反而更加容易离职。)
当然,每人的情况不同,出现“黑天鹅”事件的几率也必须考虑进去。但整体而言,人类的确是习惯性动物,这种惯性让企业得以预测某些行为发生的可能 性。此外,西格尔对“预报”和“预测”做了明确区分:“预报讲的是下个月在内布拉斯加州总共会卖出多少个甜筒,预测则会告诉你哪些内布拉斯加人最有可能买 甜筒。”
《预测型分析》的某些段落有点冗长(作者花了很长的一章专门讲 IBM 的华生电脑如何在美国的益智抢答节目 Jeopardy! 上获胜),但它仍然包含了足够多简明有力的见解,翻一翻至少是有益的。书中提到了所谓的“预测效应”。具体而言,预测效应是指哪怕预测的准确度只有微小提 升,都有可能极大节省开支。例如,西格尔说有家保险公司通过预测性分析将赔付率(赔款支出除以保费收入)减少了仅 0.5%,结果一年就省下了 5000 万美元。
知道预测性分析能帮公司省 5000 万美元是一回事,知道如何利用这种分析工具是另一回事。的确,管理者必须超越对着大数据和量化技巧惊叹的蜜月期,了解企业如何能够最好地从这个新的复杂计 算年代获益。《跟上量化分析师的脚步》一书就能提供很好的帮助。如书名所暗示,本书是给并非分析专家、但渐渐需要理解这一类专家的管理者(包括企业内部与 外部的)看的。
在本书中,作者达文波特与 Kim 介绍了量化分析师的思考方式。整个框架包括三大步:定义问题、解决问题、沟通结果。
1.定义问题。这一步看上去或许简单直接,其实不然。举例来说,若企业想要了解邮件直销的成功率,就会问“多少人收到邮件后会买我们的产品?”但其实应该问的是“有多少原来不会买我们产品的人,收到邮件后会买?”(即在本例中因果关系很重要,企业想知道的是邮件的效果如何。)
在定义问题时,管理者必须让所有利益相关者参与进来。这不仅仅是为了了解他们的观点,也是为了搞清楚在分析结束后他们会不会认同其结果。这里的一个关键问题是:这次分析会带来什么样的行动?达 文波特和 Kim 讲述了一家连锁餐厅的故事。这家餐厅想研究自己的菜单上的每一道食品的盈利能力。当管理者们被问到打算拿这次分析的结果来干什么时,一位管理者说打算取消 那些不赚钱的菜,但另外一位管理者则反驳说,餐厅在过去二十年里从来没有取消过一道菜。经过进一步讨论后,管理者们转而决定研究菜品定价,而非盈利能力。
2.解决问题。这一步由建模、数据收集和数据分析构成。作者强调了新信息源的价值──更多、更好的数据往往比更 好的用来分析那些数据的算法更加重要。举例来说,保险公司 Progressive 利用 FICO 公司提供的数据分析评估了某个特定顾客未来可能发生车祸的几率,从而超越了竞争对手。另外,在 Hadoop 和 MapReduce 等工具的帮助下,企业不仅可以考虑使用结构化的数据(例如顾客的年龄与收入),也可以开始用非结构化的信息(例如文字与图片)。
3.沟通结果,并采取行动。许多量化分析师都犯了一个错误:假定他们可以单纯“靠结果说话”。这是不对的。“把 结果呈现得越清晰,量化分析越能导向决策与行动──毕竟进行量化分析最初的目的就是这个,”达文波特和 Kim 写到。有时光是清晰还不够,结果还需要以引人入胜、友好的形式展现。举例来说,德勤咨询为 Delta 航空公司开发了一个 iPad 软件,让管理者能够迅速查询航班的运营情况。软件用不同的颜色表示各机场的状态,触摸地图上的某个机场则能够调出有关当地的额外信息。管理者若想深挖,还 可以进一步取得更细致的信息:员工、客服水平、相关问题。
《跟上量化分析师的脚步》中提到的一个重要观点是,全新的计算时代来临并不意味着人们不再需要直觉和创意。这点对于那重要的第一步──定义问题──尤其适用。“解决问题和决策的过程有一半是在于用富于创造性的方式定义问题 / 决策,从而让人们可以高效地解决它,”达文波特和 Kim 说。例如一位聪明的研究员卢俊翔(音)找到了一种方式来预测顾客对于电信业的终身价值。他很有创意地将问题重新定义为“生存分析”。这是一种生物统计技巧,用来决定某个生物群体中有多少能够存活超过一定的时间。
当然,大数据和预测性分析为我们带来了一些难题。隐私就是其中的一个热点话题。2012 年,美国的 Target 超市采用量化分析手法预测哪些顾客已经怀孕,从而引起了一场媒体风暴。(西格尔在《预测型分析》一书中讨论了这一事件。)此外,跟很多新工具一样,技术发 展的速度往往超越了法律与政府管治。根据梅耶-勋伯格和库基的说法,“我们的社会已经发展出一套用来保护个人信息的规则。但在大数据的时代,这些法律条款 基本上只是一条无用的马奇诺防线。”
另一个棘手的问题是如何为数据定价。在过去,企业花了很多心力去评估其品牌、专利、商业秘密以及其它知识财产的价值。现在我们也应该将数据纳入其中。但
是,企业在 Facebook
上收获的那些“赞”究竟值多少钱?谷歌的搜索信息全部加起来值多少钱?此外,消费者是否有权共享这些价值?尤其是当信息被收集起来,以和原本目的不同的方
式盈利的时候?
先抛开这些难题,有一件事情是肯定的:大数据和量化分析的时代刚刚开始。“将世界视为数据,视为数据的海洋,可以不断更深、更广地去探索它,这种思 维方式让我们对现实有了全新的视角,”梅耶-勋伯格和库基写到。那些正在尝试把握这一新现实的公司很可能会在竞争中胜出──这,很可能就是预测型分析为我 们画出的未来商业图景。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17