京公网安备 11010802034615号
经营许可证编号:京B2-20210330
全新的大数据计算时代来临并不意味着人们不再需要直觉和创意!
美国总统奥巴马在 2012 年竞选中的成功很大程度上要归功于对量化分析的运用。例如,他的团队可以分析出哪些人在收到竞选宣传单张、电话或家访后更有可能去投票,从而改变那些关键 的“摇摆州”的局面。沃尔玛通过数据分析发现,在飓风袭击某地之前,不但当地对手电筒的需求会上升,某种果塔饼干的销量也会提升。这阵量化风还吹到了体育 界──畅销书《Moneyball》把量化分析的概念普及给了民众。但这些新的量化技巧到底是怎么回事?企业应该如何运用它们?
最近的三本书有助于管理层找到这些问题的答案:《大数据:改变我们生活、工作与思考的革命》(Big Data: A Revolution That
Will Transform How We Live, Work, and
Think)的作者维克多·梅耶-勋伯格和肯尼斯·库基耶分别是牛津大学互联网管治教授和《经济学人》的数据编辑;《预测型分析》(Predictive
Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die)的作者艾力·西格尔是 Predictive Analytics World
创始人及哥伦比亚大学前任助教;《跟上量化分析师的脚步》(Keeping Up with the Quants: Your Guide to
Understanding and Using Analytics)则由巴布森学院信息技术与管理教授托马斯·H·达文波特与韩国国防大学的
Jinho Kim
合著。前两本书着重讲了大数据与量化分析的威力,第三本书则指导企业如何利用这些技术。三本书既包含介绍也包含建议,加在一起,它们可以成为想理解这个复
杂数据时代的管理层的入门读本。
根据艾力·西格尔的估计,人类如今每天都会增加 2.5 万亿字节的数据。文字成了数据,机械的物理状态成了数据,我们所处的地理位置成了数据,甚至人与人之间的互动也成了数据。“很 多时候,数据的收集是被动的。你不但不需要做什么,甚至都不知道自己的数据被记录了。另外,由于存储成本大幅降低,我们没有什么理由要删除任何数据了,” 维克多·梅耶-勋伯格和肯尼斯·库基耶写到。两位作者用“数据化”一词来描述这种新现象。的确,数据淹没了我们,不过这究竟意味着什么?
当然,擅长有选择地进行数据分析的公司已经从数据中找出了各种有价值的关联。有些结论并不令人意外。例如西格尔发现那些会购买小绒垫垫在椅子腿下方 以保护地板的人的信用记录往往较好。还有一些结果则很出人意料。某些办公室里,吸烟者得腕管综合症的几率比不吸烟的人更低(或许是因为吸烟让他们休息得更 频繁)。素食者误机的比率也比较小(或许因为他们提前预定了特餐,所以不想错过这班飞机)。
不过,管理者要获得这样的信息,就必须从过去的“小数据”心态中彻底摆脱出来。梅耶-勋伯格和库基的书非常引人入胜,信息量也很足。他们提出了三个要点:
1.企业应该用全部的数据,而不仅仅是某一部分。在过去,企业没有经济能力捕捉、存储与分析关于其各类业务的全部数据,因此只能用其中的一部分。但如今像亚马逊这样的公司已经完全可以把每一个顾客的交易数据都捕捉和存储下来。
2.接受混乱。不准确的数据的危害比以前要小了,因为巨大的数据量可以弥补单一数据的不足。用作者们的话说:“更好不如更多。”
3.拥抱关联。对于很多目的而 言,有关联就足够了,人们不需要知道因果关系。梅耶-勋伯格和库基提到,某个关于二手车的分析发现橙色汽车发生故障的几率比其它颜色的汽车低一半。就算我 们不知道这背后的原因,橙色和故障的关联也是有价值的信息。(或许橙色车的车主更热爱汽车,因此更爱护它?)
大数据的另一个要点在于,很多对数据的应用和收集数据时的原始目的完全不同。距离来说,手机公司收集地理位置信息是为了有效地转接电话,但这些数据 也可以用来了解人们周末晚上去哪玩──这一信息对于预测房地产价格可能会有帮助。确实,梅耶-勋伯格和库基承认“数据的许多价值源自其次要用途和期权价 值,而非主要用途。”事实上,两位作者预测,“每组数据集都很可能包含内在的隐藏价值,现在人们正在抢着发现和捕捉它们。” 虽然如此,我们也要指出很多潜在的数据应用都游走在伦理、道德甚至法律边缘。例如一个人的社交网络可以被用来判断他的信用记录。假若他的朋友中多有信用记 录不佳者,那么根据“近墨者黑” 原理,他或她是不是也更有可能拖款?
西格尔的《预测型分析》主要讲的是如何将一个人做某件事──无论是拖款、升级有线电视套餐还是跳槽──的可能性量化。作者描述了如何通过量化技巧在 数据中寻找有价值的规律,从而帮助企业预估顾客、员工等人的行为。根据书中的信息,联邦快递能以 65% 到 90% 的准确率预测哪些用户更容易转用别家快递服务。美国公民银行(Citizen Bank)可以通过更加复杂的量化分析手法将支票诈骗带来的损失减少 20%。另外,惠普一直在依靠预测型分析来预判哪些员工更有可能离职,从而给经理们留出充分的时间挽留员工,或是为其离职做好准备。(有趣的是,惠普的某 个部门里,获得升职的员工若是薪水没有明显增加,反而更加容易离职。)
当然,每人的情况不同,出现“黑天鹅”事件的几率也必须考虑进去。但整体而言,人类的确是习惯性动物,这种惯性让企业得以预测某些行为发生的可能 性。此外,西格尔对“预报”和“预测”做了明确区分:“预报讲的是下个月在内布拉斯加州总共会卖出多少个甜筒,预测则会告诉你哪些内布拉斯加人最有可能买 甜筒。”
《预测型分析》的某些段落有点冗长(作者花了很长的一章专门讲 IBM 的华生电脑如何在美国的益智抢答节目 Jeopardy! 上获胜),但它仍然包含了足够多简明有力的见解,翻一翻至少是有益的。书中提到了所谓的“预测效应”。具体而言,预测效应是指哪怕预测的准确度只有微小提 升,都有可能极大节省开支。例如,西格尔说有家保险公司通过预测性分析将赔付率(赔款支出除以保费收入)减少了仅 0.5%,结果一年就省下了 5000 万美元。
知道预测性分析能帮公司省 5000 万美元是一回事,知道如何利用这种分析工具是另一回事。的确,管理者必须超越对着大数据和量化技巧惊叹的蜜月期,了解企业如何能够最好地从这个新的复杂计 算年代获益。《跟上量化分析师的脚步》一书就能提供很好的帮助。如书名所暗示,本书是给并非分析专家、但渐渐需要理解这一类专家的管理者(包括企业内部与 外部的)看的。
在本书中,作者达文波特与 Kim 介绍了量化分析师的思考方式。整个框架包括三大步:定义问题、解决问题、沟通结果。
1.定义问题。这一步看上去或许简单直接,其实不然。举例来说,若企业想要了解邮件直销的成功率,就会问“多少人收到邮件后会买我们的产品?”但其实应该问的是“有多少原来不会买我们产品的人,收到邮件后会买?”(即在本例中因果关系很重要,企业想知道的是邮件的效果如何。)
在定义问题时,管理者必须让所有利益相关者参与进来。这不仅仅是为了了解他们的观点,也是为了搞清楚在分析结束后他们会不会认同其结果。这里的一个关键问题是:这次分析会带来什么样的行动?达 文波特和 Kim 讲述了一家连锁餐厅的故事。这家餐厅想研究自己的菜单上的每一道食品的盈利能力。当管理者们被问到打算拿这次分析的结果来干什么时,一位管理者说打算取消 那些不赚钱的菜,但另外一位管理者则反驳说,餐厅在过去二十年里从来没有取消过一道菜。经过进一步讨论后,管理者们转而决定研究菜品定价,而非盈利能力。
2.解决问题。这一步由建模、数据收集和数据分析构成。作者强调了新信息源的价值──更多、更好的数据往往比更 好的用来分析那些数据的算法更加重要。举例来说,保险公司 Progressive 利用 FICO 公司提供的数据分析评估了某个特定顾客未来可能发生车祸的几率,从而超越了竞争对手。另外,在 Hadoop 和 MapReduce 等工具的帮助下,企业不仅可以考虑使用结构化的数据(例如顾客的年龄与收入),也可以开始用非结构化的信息(例如文字与图片)。
3.沟通结果,并采取行动。许多量化分析师都犯了一个错误:假定他们可以单纯“靠结果说话”。这是不对的。“把 结果呈现得越清晰,量化分析越能导向决策与行动──毕竟进行量化分析最初的目的就是这个,”达文波特和 Kim 写到。有时光是清晰还不够,结果还需要以引人入胜、友好的形式展现。举例来说,德勤咨询为 Delta 航空公司开发了一个 iPad 软件,让管理者能够迅速查询航班的运营情况。软件用不同的颜色表示各机场的状态,触摸地图上的某个机场则能够调出有关当地的额外信息。管理者若想深挖,还 可以进一步取得更细致的信息:员工、客服水平、相关问题。
《跟上量化分析师的脚步》中提到的一个重要观点是,全新的计算时代来临并不意味着人们不再需要直觉和创意。这点对于那重要的第一步──定义问题──尤其适用。“解决问题和决策的过程有一半是在于用富于创造性的方式定义问题 / 决策,从而让人们可以高效地解决它,”达文波特和 Kim 说。例如一位聪明的研究员卢俊翔(音)找到了一种方式来预测顾客对于电信业的终身价值。他很有创意地将问题重新定义为“生存分析”。这是一种生物统计技巧,用来决定某个生物群体中有多少能够存活超过一定的时间。
当然,大数据和预测性分析为我们带来了一些难题。隐私就是其中的一个热点话题。2012 年,美国的 Target 超市采用量化分析手法预测哪些顾客已经怀孕,从而引起了一场媒体风暴。(西格尔在《预测型分析》一书中讨论了这一事件。)此外,跟很多新工具一样,技术发 展的速度往往超越了法律与政府管治。根据梅耶-勋伯格和库基的说法,“我们的社会已经发展出一套用来保护个人信息的规则。但在大数据的时代,这些法律条款 基本上只是一条无用的马奇诺防线。”
另一个棘手的问题是如何为数据定价。在过去,企业花了很多心力去评估其品牌、专利、商业秘密以及其它知识财产的价值。现在我们也应该将数据纳入其中。但
是,企业在 Facebook
上收获的那些“赞”究竟值多少钱?谷歌的搜索信息全部加起来值多少钱?此外,消费者是否有权共享这些价值?尤其是当信息被收集起来,以和原本目的不同的方
式盈利的时候?
先抛开这些难题,有一件事情是肯定的:大数据和量化分析的时代刚刚开始。“将世界视为数据,视为数据的海洋,可以不断更深、更广地去探索它,这种思 维方式让我们对现实有了全新的视角,”梅耶-勋伯格和库基写到。那些正在尝试把握这一新现实的公司很可能会在竞争中胜出──这,很可能就是预测型分析为我 们画出的未来商业图景。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22