登录
首页职业发展大数据的承诺和陷阱
大数据的承诺和陷阱
2015-12-07
收藏

大数据的承诺和陷阱


舍恩伯格那种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动

为什么我们知道的多,困惑却更多?

我们时时刻刻都在预测:太阳会不会照常升起?广州恒大能不能夺得冠军?A股明天会不会大涨?朋友创办的这家公司能不能获得风险投资?……我们也无时无刻不在验证过往的预测,而且往往带有成本和收益,比如赌球、炒股或者创业,结果都会带来正负收益。

在预测和证实(证伪)之间,是我们无意识的信念或精心建构的理论。从笛卡尔到康德,从卡尔·波普到索罗斯,关于我们如何发现规律并作出预测,有无数的研究和哲学探讨。而今天,随着大数据时代的来临,又有很多专家开始反思这个经典的认识论问题,并为之添加谈资和养料。

舍恩伯格是"大数据"概念的著名吹鼓手,其著作《大数据时代》认为,随着人们看待数据的方式的变化—从局部变为全部以及从纯净变为凌乱,思维方式也应该转型,即从因果关系转向相关性。或者说,只要知道"是什么",而不需要知道"为什么"。

他在书中提到这样一个例子:统计学家们用二手车数据建立了一个算法系统,来预测哪些车更可能出现质量问题。相关性分析表明,橙色车出现质量问题的可能性只有其他车的一半。

这是为什么呢?因为橙色车的车主更爱车?橙色车在制造方面更精良?还是因为橙色车更显眼、出车祸的概率更小?不知道,舍恩伯格也认为无须知道。

不过,这种看重相关性而不追究因果关系的思路,其实是不利于预测和下一步行动的。比如,我们是不是应该建议车主把车漆成橙色呢?这样会使车辆减少质量问题吗?不知道。因为橙色和车辆出现质量问题之间的内部关系,我们不清楚。

有个经典的社会学考题是这样的:冰淇淋的销量和强奸案的发生率存在线性关系,即一个增长,另一个也增长。不过,两者之间显然没有因果关系,而只有相关关系。另一个变量,即天气变暖,才是两者之间的真正桥梁。

所以,舍恩伯格这种放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动。

而新书《信号与噪声》恰好是一针清醒剂。作者纳特·西尔弗认为,在任何一个数据丰富的领域,寻找预测模式都很容易。关键是要分辨出这些模式到底是噪声还是信号。而关于概率运算的贝叶斯定理,仍然是西尔弗推崇的一种预测思路。

他举了天气预报、政治选举预测、地震预测、棋牌游戏、股市、恐怖袭击等多个领域的例子,认为我们对未来的预测,应该基于可能性,以概率的方法思考问题,在不断试错中进步。像天气预报就是这样的典型,比如气象小姐会说,明日降水概率为60%。而且,西尔弗指出,在过去25年里,飓风中心的预测准确率提高了350%,这是其他领域根本无法企及的进步。

试错法,是哲学家卡尔·波普推崇的科学研究方法。而西尔弗发现,一个成功的NBA球赛赌徒也是如此:大胆预测,不断犯错,不断尝试。只要获得新信息,就应该更新自己的预测。

这是一种更加进取的思维方式,又何尝不是一种崭新的生活理念呢?

1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火。这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。

印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。

信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程。

印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》被古腾堡的印刷机复印了30多万次。路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。单单一个三十年战争,德国人口就减少了1/3。这堪称人类历史上最血腥的时代。

但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步。

大数据的承诺和陷阱

到了时下,最流行的要数"大数据"了。根据IBM的估计数据,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。

信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:"数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。"

我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。

在4年时间里,我对十多个行业和领域中的数据驱动预测机制进行了调查,我也曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现"大数据"时代的预测活动发展得并不顺利。

新千年给美国人带来的是噩梦般的开始。我们没有预测到"9·11"恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的"珍珠港事件"一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。

近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能"盲目飞行"了。

与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。

错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文—《为什么大多数发表的研究成果都是骗人的》。

这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。

人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。

在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的"信息超负荷"的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。

正是出于这个原因,我将预测视为人们共同的事业。虽然预测很难,但解决方法还是有的。

在任何一个数据丰富的领域,寻找模式很容易,一般的预测者也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。虽然还没有找到关键点,但是有一种思维过程可以帮助我们作决定,这就是贝叶斯定理。

预测和贝叶斯定理

托马斯·贝叶斯,大概于1701年出生。尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员。在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。

贝叶斯的作品《机会的学说概论》,又称《论有关机遇问题的求解》,直到他1763年去世之后,由他的朋友理查德·普莱斯引介到英国皇家学会,引起了学会的注意,随后才得以出版。这部作品主要研究的是,当我们遇到新数据时,该如何使用概率的方法进行推理。

今天公认的贝叶斯定理就是一个普通的不能再普通的数学表达式,是由法国数学家、天文学家拉普拉斯推导出来的:

然而,就是这样一个简单的运算,却可以推导出重大的预测。

贝叶斯定理涉及条件概率,也就是说,一旦发生了某个事件,这一定理就可以告诉我们一种理论或假设是否正确。

假设你和伴侣同住,某天出差回家后发现自己的衣橱里多出一件陌生的内衣。你可能会奇怪:自己的伴侣是不是出轨了?不论你相信与否,对于这样的问题,贝叶斯定理总能给出答案—假如你知道(或愿意预估)下列3个量。

第一,你需要预测出自己的伴侣在出轨的情况下,这件内衣出现的概率。为了解决这个问题,我们暂且假设你是一位女性,而你的伴侣是一位男性,那么,此时我们所说的内衣就是一件女式内衣。如果你的伴侣出轨了,那么很容易想象这件内衣是如何进入你的衣橱的。那么,即使他确实要做对不起你的事,你也希望他能够小心行事。在他确实背叛了你的情况下,我们认为,这件内衣出现的概率是50%。

第二,你需要预测出自己的伴侣在没有出轨的情况下,这件内衣出现的概率。如果他没有出轨,有什么理由证明那件内衣的清白呢?当然有些理由会令人不快(比如这件内衣也有可能是他自己的)。或许,他把衣服搞混了;或者你的伴侣有一位红颜知己,两人之间只存在纯友谊,而你对此也深信不疑,她寄宿一晚忘了带走内衣;或者这就是你的伴侣给你准备的一件礼物,只不过忘了把它包起来。尽管这些理由有些荒谬,但也能说得通。你将这种情况出现的概率定为5%。

第三,这点最为重要,你需要预测贝叶斯定理中所说的先验概率(或者简称先验)。在发现内衣之前,你认为自己的伴侣出轨的概率有多大?当然,现在很难完全客观地考虑这个问题,因为你已经发现了内衣。(在理想状态下,在开始查验证据之前,你就已经算出了先验概率。)但有时我们可以依据经验推断某事件发生的概率。比如,研究发现,已婚夫妇任何一年的出轨概率都在4%左右,所以,我们可以将这个概率视为先验概率

如果我们算出了以上3个概率值,就可以依据贝叶斯定理得出后验概率:只有29%,这个结果也许看似仍有悖常理—那件内衣果真是清白的吗?但这一概率之所以较低,是因为你把伴侣出轨的先验概率设定得很低。尽管一个清白的男人不能像出过轨的男人那样,能为一件陌生内衣的出现找出很多看似合理的解释,但你一开始就把他当作清白的人,这一点对方程式影响很大。

这里,我还要提到一个比较沉重的例子:"9·11"恐怖袭击事件。2001年9月11日清晨,当我们从梦中醒来时,大部分人都想不到恐怖分子的飞机会撞向曼哈顿世贸中心大楼。但是,世贸中心第一次遭遇袭击之后,我们才意识到这也许是一次恐怖袭击。直到第二座高楼被袭击之后,我们才相信确实遭遇了恐怖袭击。

贝叶斯定理可以复制这个结果。比如,在第一架飞机撞击大楼之前,我们预测曼哈顿的高楼遭遇恐怖袭击的概率只有1∶20000或0.005%。当然,我们还是会认为世贸中心意外遭遇飞机撞击的概率是非常低的。人们靠经验也能准确地预测出0.005%这个数字。9月11日之前的25000天,一直有飞机盘旋在曼哈顿的上空,而期间只发生了两次这样的意外事故:一次是1945年的美国帝国大厦事件,另一次是1946年的川普大厦事件。这样看来,此类意外事故的日发生概率只有1∶12500。在第一架飞机撞上世贸中心大楼的那一刻,如果用贝叶斯定理计算这些数据,发生恐怖袭击的概率便会从0.005%剧增至38%。

然而,贝叶斯定理暗含的意思并不是说,我们对概率的预测只可以作一次更新,相反的,鉴于新证据的不断涌现,我们需要不断地更新自己的预测结果。于是,第一次恐怖袭击的后验概率38%,在第二次袭击之前就会变成先验概率。这时再来进行世贸中心遭遇第二次恐怖袭击的概率运算,遭遇袭击的概率就变成了99.999%,这就表示恐怖袭击必会出现。在阳光灿烂的纽约出现意外事故的概率很低,而就像我们推断出来的可怕结果一样,第二次恐怖袭击很有可能会发生。

不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则。或者说,一旦获得新信息,我们就应该更新自己的预测。

数据分析咨询请扫描二维码

客服在线
立即咨询