登录
首页精彩阅读大数据相关关系的因果派生类型
大数据相关关系的因果派生类型
2018-03-06
收藏

大数据相关关系的因果派生类型

大数据的发展,一方面对因果关系的传统理解构成了全面挑战,凸显了深化相关关系理解的难题;另一方面又为深化理解相关关系创造了条件。大数据时代,物数据化和数据物化分别是因果关系转化为相关关系和相关关系向因果关系转化的重要环节。通过这两个对称的环节,大数据为充分展开重新刻画的因果概念,深入理解相关性和因果性之间的关系,提供了理论前提和实践基础。

当我们把原因看作是对因素相互作用过程的描述,把结果则看作对因素相互作用效应的描述,就能看到相关关系的因果派生性质。当因素未进入相互作用过程时,它们构成了一种与潜在结果相联系的因素关系。这种因素关系与因果关系密切相连,因为因素不与潜在结果相联系,就不存在因素关系。这种与因素关系密切相连的因素相互关系,正是一种典型的相关关系。这种相关关系的生成表明,那是一种因果派生关系。同样原理,因素和结果之间及结果之间的关系等都是因果派生的相关关系。由此可以得到关于因果关系和相关关系的清晰理解:因果关系是为因素相互作用所确定的关系,由于因果关系事实上是一个过程的两个方面,所以不构成相关关系。而相关关系则是因果关系的派生关系,包括因素之间、结果之间以及因素和结果之间的关系等[1]。

大数据是信息文明的基础,在信息文明时代,关于大数据相关关系及其因果派生类型的研究,不仅对哲学,而且对统计学、计量经济学、生物统计学(Biometrics)和心理测验学(Psychometrics)等学科都有重要意义。

由于具有衍射性质,相关关系的因果派生至为复杂;由于因果派生方式的多样性,相关关系种类繁多。一方面,由于是因果派生关系,同样的变量相关关系可以为完全不同的因果关系所派生。另一方面,数据既可以反映原因和结果的关系,也可以反映因素和结果的关系,甚至反映因素之间、结果之间的关系。这也是现实生活中相关关系如此纷繁复杂的原因,只有把握了因果结构,才能对相关关系进行分类把握。根据重新刻画的因果概念所展示的因果结构,作为因果派生关系,相关关系有三大基本类型。

一、因素和结果间相关关系

这是一类相对于特定因果关系的相关关系。由于无论因素还是结果,从直接到间接实际上构成了一个区间,因而数据所反映的相关关系就呈现出非常复杂的情况。由于对于一个特定因素的相互作用过程来说,因素和结果都可以是间接的,因而又有4个亚类。

(一)直接因素和直接结果间相关关系

直接因素和直接结果间相关关系是一种由因果关系派生的直接相关关系。作为与其他因素以一定的方式参与相互作用的特定因素,其与结果的关系受其他因素及相互作用方式的影响。同样的因素与不同的其他因素相互作用,或者与同样的其他因素但以不同的方式相互作用,可以形成完全不同甚至在质上相反的结果。在庄稼施肥和产量的关系中,作为结果,产量与施肥的因素有关,不施肥产量上不去,适当施肥可能丰收,但施肥过量,不仅产量可能反降,甚至可能造成绝收的结果。作为典型的因素和结果间关系,无论在量上还是质上,直接因素和直接结果之间的关系正是典型的相关关系。

典型的直接因素与直接结果间关系,表现为有直接关联,但不具有必然联系,更确切地说,不能是必然因素。因为因素只是作为原因的相互作用过程的构成要素,它不仅对结果的贡献有不同,而且其对结果生成的影响也与其作用方式及其他因素密切相关。如人的身高是体重的因素,但体重的原因是身高和其他因素相互作用的结果,身高并不能完全决定体重。这种相关关系的相关度可能不断变化,只有在某一瞬间才可以被认为是相对确定的。因此,动态过程横截面的数据反映,直接作为原因相互作用过程的因素,在结果生成过程中的影响或相关性是确定的。

直接因素和直接结果之间相关关系的数据反映,可能构成非常有意义的变量相关关系。所谓间接因素,就是其参与特定因素相互作用过程不是直接的,而是通过其他因素——典型的如通过直接因素——起作用,比如杀人案中的教唆者。由此可以构成一个作用链条,正是这一链条构成因素的作用距离。因素的作用距离越近,作为其反映的数据相关关系就越确定。因为因素的作用距离越近,其作用及其方式的传导越取决于更少的其他因素;经过的环节更少,因而越可靠,越具有稳定性,相关程度也相应越高。变量之间关系的确定性达到一定程度,可以接近因果关系,这种相关关系所反映的通常就是直接因素作为主要因素起作用的因素相互作用过程。

直接的因素和结果间相关关系,正是大数据中最接近因果关系性质的相关关系,也是日常生活、经典物理学和大数据中最易被误为因果关系的相关关系。

二)直接因素和间接结果间相关关系

直接因素和间接结果间相关关系是由因果关系派生出的一种间接相关关系。在这种相关关系中,相关的一方是参与相互作用生成一定结果的直接因素,另一方则是所生成的直接结果作为因素参与其他相互作用过程生成的结果。在这种相关关系中,如果直接因素和间接结果间的相互作用距离不远,可能构成具有预测功能的关系。最著名的案例是影响广泛的所谓“男式内裤指数”(Men's Under ware Index)。

“男式内裤指数”被看作是重要经济指标,因为经济不景气或出现下滑时,男式内裤会推迟购买。与此相反,如果男式内裤销量上升,则表明经济开始回暖。由于这一现象与经济指标具有很高相关度,据说连美联储前主席格林斯潘(Alan Greenspan)都把它作为最可靠的指标之一。就像蚂蚁预报地震,这类指数可能比统计数字更可信。这类案例还有“学历高消费出租车司机指数”(Over Educated Cabbie Index)和“靓女招待指数”(Hot Waitress Index)。

“学历高消费出租车司机指数”是指坐出租车与司机交谈时,如果发现很多出租车司机教育水平提升,则表明经济要进入衰退或已现不景气。因为这种现象是相应岗位裁员,而转行到就业相对灵活的出租车行业的结果。之所以把出租车司机的教育水平作为指数,是因为可以从交谈感觉出出租车司机教育水平的变化。“靓女招待指数”则由纽约观察家分析获得,因为一般情况下,漂亮女生容易找到更好的工作岗位,如果普通餐馆靓女招待普遍增多,即表明就业艰难,很多靓女不得不到餐馆打工,原因就是经济将下滑或不景气。这些案例所呈现的,都是直接因素和间接结果之间的相关关系。男式内裤销量、出租车司机学历高消费现象和靓女招待增加的原因,都有经济发展走势作为直接因素,也就是说,这些现象都是经济发展走势作为直接因素参与构成的间接结果。

由于是直接因素和间接结果之间的关系,这种间接相关关系的量化可以构成一个趋向完全无关的区间,因此这种相关关系具有两方面特点:一方面,在质的理解上,随着对间接结果的作用距离越来越远,实质上的相关性越来越弱;另一方面,在量的把握上,直接因素作为自变量相对稳定,而间接结果作为因变量则随着作用距离的增加而越来越弱,即自变量和因变量的相关性随着因素对间接结果作用距离的增加而减小,直至被不断加入的其他因素的相互作用效应所完全淹没。

由于同一因素可以参与不同的相互作用过程,结果又可以作为因素参与新的因素相互作用等,直接因素和间接结果之间可以派生出复杂的相关关系。在这两种情况下,因果派生的相关关系较为复杂。比如大学教授的工资和英格兰威士忌之间的高度相关竟是由于通货膨胀,肥胖和女性犯罪率的正相关是由于社会经济地位[2]。前者是同一因素参与两个不同的因素相互作用过程构成的相关关系;后者则是结果作为因素参与另一因素相互作用过程,从而构成新的原因,产生新的结果。后一例子看上去就是传统因果链,但传统因果链具有必然性,而肥胖与犯罪的关系不是必然的。

(三)间接因素与直接结果间相关关系

间接因素与直接结果间相关关系也是由因果关系派生的一种间接相关关系。典型的间接因素与直接结果间关系,表现为有间接关联。而由这种间接关联所生成的相关性,则根据因素的作用距离而不同,事实上可以呈现为一个连续系列。由于涉及间接因素,而间接因素可以是一个作用距离趋向无限远的区间,因而这种相关关系也具有极为不同的两方面特点:一方面,随着间接因素对结果作用距离的增加,因素对结果的影响越来越小,相关性越来越弱;另一方面,在量的把握上,间接因素作为自变量,随着作用距离的增加而衰减,而结果作为因变量则相对稳定可靠,即自变量和因变量的相关性随着间接因素对结果作用距离的增加而减弱,直至衰减到其作用可以忽略不计。

(四)间接因素与间接结果间相关关系

由于因素和结果都是间接的,两个变量之间的关系变化可以是两个趋向无关的区间的乘积。这样,间接因素和间接结果之间相关关系的数据反映,可以构成毫无价值的变量关系。因素的作用距离越远,其作用及其方式的传导越取决于更多的其他因素,必须经过更多环节,因而越不可靠,越具有不稳定性,从而作为其反映的数据相关关系就越具有不确定性,相关程度也相应越低。而间接结果也是一个趋向无关的区间,两个趋向无关的区间相叠加,变量之间关系的确定性便呈几何级数递减。变量之间关系的不确定性达到一定程度,则可以趋向毫不相关。这种关系所反映的,就是间接因素的作用距离如此之远,以至其在因素相互作用过程中的作用时有时无,可正可负,根本没有可资利用的确定性。由于大数据是全数据,因而其所反映的绝大部分是作用距离相对较远的间接因素与间接结果之间的关系。正是在这个意义上,大数据从整体看来又是非结构性数据,甚至在某种程度上具有堆的性质。所谓“相关关系越多,偏见越多”[3],所描述的就是这种情景。由此也可以看到数据挖掘的复杂性和技术难度,看到根据重新刻画的因果概念研究因素分析方法的重要性。

二、结果间相关关系

结果间相关关系是一类相对于同一原因的相关关系。就因素关系的规定而言,同一因素体系以同一方式、进入同一相互作用不应得到不同的结果,但作为相互作用效应痕迹的累积,同一结果可以有不同的内部结构,因而有不同的部分或形态。结果可以构成两种结构次序:历时性的时序和共时性的空序,结果基于时序和空序构成的关系,则是另一种类型的相关关系。由于这种类型的相关关系是相对于同一原因的,量化后变量之间的关系非常特殊。它们都由同一原因引起,而同一原因引起的结果可以在不同时段,这就是涉及所谓“第三变量”中的一种相关关系。计量经济学中的“遗漏变量”(omitted variable)所表明的,正是一种结果间相关关系。家庭成员拥有打火机的数量与患癌症的几率相关,如果认为打火机是致癌因素,则是因为没有考虑到它们都是吸烟的结果,吸烟因而成了遗漏变量[4]。休谟曾经讨论到这类例子,他意识到,不像父子之间,堂兄弟之间不是因果关系,而是“被因果关系联系起来的关系”。休谟同时也感觉到这样的表述不是很规范,事实上这里所说的堂兄弟之间的关系就是结果间相关关系。“但是这种联系的密切程度不及兄弟之间的联系,当然更不及父母和子女之间的联系。我们可以一般地说:一切血亲关系是根据因果关系的,并且是随各人中间所插入的起联系作用的原因的数目的多少、而定其远近的。”[5](P23)由于时序和空序结构,这种结果间相关关系又有两类:直接结果内部要素的相关关系和间接结果之间的相关关系。

(一)直接结果内部要素间相关关系

直接结果内部要素间相关关系就是人们常说的有相关性但没有因果性的相关关系。这种相关关系具有如下特点:一方面,在质的理解上没有任何意义上的因果关系;但另一方面,在量的把握上,这种相关关系却可以表现为几乎完全相关。典型的例子就是冰激凌销量和性犯罪率之间的相关关系,二者都是各自与气温相互作用的结果。在大数据中,这种相关关系对于认识因果关系意义不大,甚至没有意义,但对于创构所需结果则具有重要价值。典型的如出自沃尔玛的著名案例“啤酒与尿布”和“蛋挞与手电筒”。

“啤酒与尿布”和“蛋挞与手电筒”都是大数据技术应用的经典案例。由于沃尔玛最早在商品零售中应用信息技术,并拥有相应的数据挖掘技术——“购物篮方法”,当用这种方法分析消费者购物行为时,发现一些男性顾客在购买婴儿尿布时,常常会顺便买几瓶啤酒。原来美国家庭生了小孩,一般是母亲在家照顾孩子,父亲出外采购,因而为家里添丁忙碌的年轻父亲们在购买尿布时,常常会稍带给自己配上几瓶啤酒解乏。沃尔玛由此推出啤酒和尿布摆在一起的促销方式,使尿布和啤酒的销量都大幅增加。沃尔玛还根据大数据,通过顾客对蛋挞和手电筒各自相对于顾客购买的相关关系,得到在货架上把二者摆放在一起而提高销售量的结果。这是同一个购买行为构成的直接结果内部两种商品购买之间的相关关系。由于具有由因果性而来的强相关,这种常与虚假因果关系相联系的相关关系却可以有效用于预测,典型的案例是谷歌成功预测冬季流感,微软成功预测奥斯卡大奖等。

2009年,谷歌公司通过分析五千万条美国人谷歌检索最频繁的词汇,将结果与美国疾病中心2003年至2008年之间季节性流感传播期的数据进行比较,建立起数学模型,成功预测2009年冬季流感的传播,预测甚至精确到具体的地区和州。与此相似,2013年,微软纽约研究院也是通过大数据分析,成功预测24个奥斯卡奖项中的19个,次年更成功预测第86届奥斯卡金像奖24个奖项中的21个。更有意思的是,美国明尼苏达州一家百货店根据大数据分析,将婴儿产品优惠券寄给一个高中女生,遭致女生父亲投诉。但不久这位父亲来电道歉,因为女儿承认了自己怀孕的事实。百货店正是通过用户购物数据的分析,根据相关关系得到这么精确的结果。这些案例中的检索词、购物行为和电影引发各种结果都是由同一原因产生的复合结果,这些复合的直接结果所构成的相关关系正是直接结果内部要素之间的相关关系。

  这些案例不仅表明大数据的重要预测功能,而且同时表明了大数据与人的需要的内在关联。因为人们的行为反映了人们的需要,行为是有需要根据的。由于行为是需要的反映,因此行为之间也具有非常复杂的相关关系。当涉及连续人类行为时,大数据预测可能对产生数据的行为有重要心理影响。这种情况常常发生在间接结果间的相关关系中,特别是自相关的情况下


(二)间接结果间的相关关系

结果作为因素相互作用过程的效应及其痕迹的累积,又可以作为新的因素与其他因素构成新的相互作用,生成新的结果。由于因素相互作用过程的结果又可以是构成另一原因的因素,由此可以形成一个开放的因素和结果链,在链上不同层次的结果之间,可以构成又一种相关关系。由于因素和结果链不同于传统因果概念意义上的因果链,这些间接结果间的关系不是具有必然联系的因果关系,而只构成具有某种确定性联系的相关关系。这种相关关系不仅有共时相关,还有历时相关。历时相关是因素相互作用过程不同阶段性结果之间的相关关系,统计学和计量经济学称为序列相关的“自相关”(autocorrelation),事实上就是指的历时过程不同时段结果之间的相关性。在实践中,“自相关”和“序列相关”(serial correlation)之所以普遍作为同义词使用[6],在这种相关关系的派生机制中可以找到原因,这只是一个把相关关系看作自身内部关系还是一种外部关系的问题。

在自相关情况下,大数据可能对预测本身构成影响,著名的“丁蟹效应”和“一蚊鸡”现象就是典型案例。

“丁蟹效应”和“一蚊鸡”都是股票市场的奇特现象。“丁蟹效应”又称“秋官效应”,因为自从郑少秋1992年在《大时代》中饰演丁蟹,凡有郑少秋主演的电视剧播出,恒生指数便出现不同程度下跌。只有一次例外,那是当郑少秋主演的新剧《心战》2012年5月21日播出后,港股却结束4日连跌。但人们期待的逆袭未现,次年郑少秋主演的新电影《忠烈杨家将》上映后,“丁蟹效应”又一再应验,创下20年间多达近30次的纪录,以致在实际操作中,不少小股民把“丁蟹效应”看作一个股市指标。比“丁蟹效应”更为诡异,香港2008年起,稻香酒楼的“一蚊鸡”也成为港股走势另一个风向标。从2008年开始,稻香酒楼6次推出“一蚊鸡”优惠,都遇港股下跌。最严重的一次发生在2009年2月,“一蚊鸡”优惠一推出,一个月内恒生指数累计跌幅近两成。这些现象或效应的“诡异”并不神秘,都跟大数据中行为数据构成的自相关关系密切相关。在大数据预测中,行为数据对产生数据的行为主体的影响是一个很重要的问题。如果产生数据的行为是连续的,在大数据预测中就会构成间接结果间的自相关关系。由于这种自相关性对产生数据的行为主体的影响包括心理效应,大数据预测将对自身构成复杂而重要的影响,典型的结果类似心理学上的“一念成谶”①现象。正如在个人行为中,由于行为的自相关关系,行为效率在很大程度上取决于对自己行为自相关关系的把握。在大数据预测中,预测精度与对预测行为的自相关关系的把握密切相关,因为间接结果间的自相关关系由于结果生成距离而高度复杂化。

不仅因素有不同的作用方式和作用距离,在因素相互作用生成的系列效应及其累积的不同结果形态之间,也具有由结果的间接性所确定的生成距离。间接结果之间的相关关系具有与直接结果内部要素的相关关系同样的基本特点,但这种相关关系无论在因果关系质的理解上,还是在变量关系量的把握上,都随着间接结果生成距离的增加而递减,直到完全被不断加入的后续因素的作用效应所淹没。

在大数据中,相对于一定原因的间接结果间的相关关系,正是最易导致虚假因果关系的相关关系。相对于特定原因的结果间关系,特别是间接结果之间的关系,所反映的往往是因果关系的现象关联。这种现象关联对因果关系的反映是间接的。作为非常间接的因果联系的现象关联,这种相关性可能仅仅是在空间上并存,时间上同时出现或先后相随的关系。比如季节交替就是太阳系运动这一复杂因果关系的光照现象关联。而且,作为反映因果关系的现象关联,相对于特定原因的结果间相关关系所涉及的,可以不是对象性的因素,不可能构成对象化过程。

三、因素间相关关系

与结果间相关关系不同,因素间相关关系所反映的是相对于一定结果的相关性。由于作为特定因素相互作用的结果既可以是现实的,也可以是潜在的,因而这类相关关系的两个亚类,分别在科学发现和基于大数据的创构活动中具有特殊意义。

(一)现实因素间的相关关系

现实因素间相关关系是凝固在相互作用结果中的因素关系,一种由于因素与特定的结果内在相联系而具有的相关关系。这种相关关系只有和结果相联系才能发现,或者说只有相对于结果才有这种相关关系。离开结果,因素间则不具有这种相关关系,就像不是因为子女成婚,亲家之间可以没有关系一样。这种相关关系的意义在于由果溯因(素),包括由结果追溯原因以及由结果和相关因素预见其他某因素的存在,因而在科学发现中具有重要价值。很多科学发现都与这种类型的相关关系有关,如太阳系第九大行星和很多元素的发现。

(二)潜在因素间的相关关系

潜在因素间相关关系是相对于潜在结果的因素关系,一种由于因素与可构成或要构成的可能结果相联系而具有的相关关系。这种相关关系只有和潜在结果相联系才得以构成,或者说只有在潜在结果的观照中才存在这种相关关系。不仅离开潜在的结果,事物或变量不会构成因素关系,而且相对于不同的潜在结果,所构成的因素关系也不相同。由于创构活动既不同于描述活动,但又与之相对称,因而这种类型的相关关系对于创构活动至关重要,不仅是大数据中最具价值的重要相关关系,而且在人类认识和实践活动中具有重要理论和实践意义,从而又与因果关系具有更深层次关联。

潜在因素间相关关系的重要性,能够根据因素关系进行创构。美国网狸公司(Netflix)的首部原创自制系列剧美版《纸牌屋》的成功制作,就是一个最早的经典例子。作为网上影像制品租赁公司,Netflix可以在大数据中看到几个要素:一个是英国BBC的《纸牌屋》是一个很受欢迎的连续剧;一个是演员Kevin Spacey很受欢迎,而且与《纸牌屋》中的主角关联特别大;还有一个就是导演David Fincher深得观众青睐。关键是这三个要素是相关的,是因素关系。把三个因素放在一起,让它们相互作用,就可以生成很有价值的结果,这就是美版《纸牌屋》。所以,美版《纸牌屋》一推出来就大受欢迎,这是他们意料之中的。任何一个导演用明星拍一部电影,都不可能预计到票房价值会怎样,但Netflix公司在推出之前就已经知道,因为从大数据中的相关因素可以直观地看到一个几乎是可以完全确定的结果。在某种意义上,这确实是运用大数据“傻瓜”获得成功的一个范例。

潜在因素间相关关系不仅能够根据因素关系进行创构,而且最典型地表明,在因果关系和相关关系之间,具有更深层次的内容。

在因素之间的关系中,不同因素在特定原因的构成中具有不同的地位和作用。由此而表现出不同程度的相关性。当所有因素都处于非主导地位,因而谈不上重要作用时,没有任何因素相对结果显著相关,相关关系就是弥散的。而某一因素地位越是重要,作用越具有主导性,这一因素对结果的生成影响权重就越大。当这一因素地位的重要性和作用之大达到一定程度,其他因素的作用可以在某种意义上被忽略时,在实践意义上,这一因素就相当于原因了,这就是作为重新刻画的因果概念的特例——传统因果观的因果性。而在创构活动中,人的创造活动越来越是主导因素。在这一领域,因果关系和相关关系不仅涉及物能和信息关系,而且越来越多地涉及社会和心理关系。因果关系和相关关系的研究不仅涉及自然因素,而且越来越深入广泛地涉及人和人为的因素,从而涉及人的需要。与潜在结果相联系的因素之间的关系,还可以指可能结果观照中的事物之间的相关关系,这种相关关系正与人们的特定需要和目的有关。比如在医生那里,刀可以与救死扶伤相关;而在凶手那里,刀则可能与谋财害命相关。只是这种相关性还不是一个涉及实际相互作用的对象化过程,只有当相关因素进入实际的相互作用过程,才构成现实的因果关系,形成对象化过程。

由此可见,相关关系不仅由因果派生,而且与因果关系具有更深层次关联。一方面,作为因果派生关系,相关关系深植于自己的因果根基;另一方面,作为生成新的因果关系的基础,相关关系又具有更深层次的因果关系意蕴。



数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询