
大数据哲学研究的背景、现状与路径
大数据正在掀起一场数据技术的革命,让我们进入真正的信息时代。它带来生产、生活、教育、思维方式诸多大变革反思,并标志着人类在寻求量化认识世界的道路上前进了一大步。面对大数据技术革命,作为时代精神精华的哲学及时作出了回应和批判,国内外哲学界已展开了大数据的哲学问题研究,而大数据哲学体系也正在形成之中。为此,我们有必要对大数据哲学的兴起背景、国内外研究现状以及未来研究的可能路径作一番回顾、梳理与展望。
一、大数据成为哲学研究的新对象
数据与人类密切相关,它应该是可与文字的发明相提并论的人类早期的重大发明和创新之一。数据由两部分构成,即“数”和“据”。所谓数,就是计量事物大小、规模之类的数字,而所谓据;就是根据,或者说计量的单位或语境。将数字与具体的事物相结合,让数字具有特定的语境意义,从而形成有根据的数字,这就是字面意义上的数据。①
在漫长的发展史中,数据世界曾发生三次革命性的变革。第一次是从无数据到有数据;第二次是从生活数据到科学数据;第三次是从科学数据到人文数据,进入“大数据时代”。
在数据发展的历史长河中,数据似乎并没有引起哲学家们的多少关注。当然,我们可以找出古希腊数学家、哲学家毕达哥拉斯,他在古希腊早期就破天荒地提出了“数是万物的始基”的观点,将数提升到本体论的高度。数和数据虽然具有重大的差别,但尚且可以将毕达哥拉斯看作数据哲学的鼻祖。在之后的两千多年的漫长历史中,数据的作用虽然从日常生活变成了科学研究的重要工具,但哲学家们却几乎把它遗忘。哲学家们热烈讨论着经验、观察、实验和理论等,唯独没有人对其中起着重要作用的数据进行哲学的批判和反思。但是,大数据刚刚兴起就引发了哲学界的热烈响应,数据这个历史上被冷落的范畴很快进入哲学研究者的视野中,成为哲学特别是科学技术哲学研究的新对象,大数据哲学也成了科技哲学研究的最新分支和研究领域。②
所谓大数据,从字面来看,就是规模特别巨大的数据资源,但实际上,大数据不仅仅只是数据规模巨大,更重要的是数据数量的变化引起了质变,数据不仅仅是自然或社会现象的数量表征,而是引发了一系列的本质变化。人们简洁地用4个V来概括大数据的特征③,即(1)量大(volume):数据规模巨大,超出一般技术手段的处理能力;(2)多样(variety):数据类型杂多,除了传统的结构化数据外,还包括文档、图片、音频、视频等非结构化或半结构化数据;(3)迅捷(velocity):数据采集、传输和处理特别迅速,几乎都是在线;(4)有价(value):数据成了新资源,只要找到合适途径,任何数据都可能变废为宝。
大数据技术的迅速兴起与其科学基础、技术条件、产业实践密切相关。首先,现代技术的出现具有坚实的科学基础,而如今的大数据是20世纪中叶信息科学以及世纪末复杂性科学发展的结果。随着计算机的出现,信息及其科学基础问题引起了科学家们的极大兴趣,信息科学及离散数学等在几十年中取得了长足的进展,事实上数据本来就是信息的载体。到20世纪90年代,复杂性科学兴起,它为我们提供了有机自然观,整体、联系、演化的复杂性思维方式以及全新的科学理论和方法。这些新兴科学的先行发展为大数据提供了理论基础。其次,诸多的新兴信息技术为大数据的出现提供了技术条件。人工智能是最近数十年的热点,如今的智能芯片已被广泛应用于各种设备和各种场合,成为传感器最重要的部件,特别是智能手机、智能穿戴设备等将智能技术推向了高潮。智能技术为信息的自动采集做好了准备。20世纪90年代普及的互联网为数据的在线快速传输提供了条件。云存储、云计算则为海量数据的存储和处理提供了可行的技术手段。最后,数据产业的快速发展为大数据提供了社会基础。进入21世纪后,Google、百度、Facebook、腾讯、亚马逊、阿里巴巴等新兴数据公司的巨大成功为大众迅速接受大数据技术提供了产业典范。由此,大数据技术在一两年的短暂时间里就迅速蹿红世界,我们也迅速被推入大数据时代。
在小数据时代,数据被哲学家忽视,而在大数据时代,数据迅速成为哲学的新热点,主要是因为大数据时代的数据与小数据时代的数据有着本质的差别。从采集手段来说,小数据是人工有意测量、采集的数据;而大数据基本上都是智能芯片自动采集或人们无意留下的数据,因为当时没有什么特别用途而被称为“数据垃圾”。从存储介质和方式来说,小数据存储于纸质或硬盘等当地媒质中,而大数据往往因数量过大而存放于云端中。从处理方式来说,小数据只需要单机就基本可处理,而大数据则往往需要云计算平台。从数据性质来说,小数据因有意采集而成为主观数据,而大数据则因没有事先渗透主观意图而具有客观性,因此属于客观数据。小数据只是研究对象局部现象的主观反映,而大数据则全面、完整、客观地刻画了研究对象。传统科学的研究对象基本上都是简单、线性、无生命的自然系统,所以小数据基本上能够刻画研究对象,而人类及其社会则是具有主体性的非线性复杂生命系统,必须用大数据才能够完整刻画研究细节。英国学者、“大数据时代的预言家”维克托·迈耶-舍恩伯格在其畅销书《大数据时代》一书中开门见山地提出了大数据的哲学意义:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄意待发。”④由此可见,大数据成了哲学研究的新热点是时代的必然,也是人类进一步认识世界的迫切需要。
二、大数据哲学成为哲学研究的新热点
随着大数据技术的兴起,大数据哲学研究迅速成为国内外哲学研究的新热点。
(1)大数据时代来临前信息哲学家们的先行铺垫
大数据时代来临之前,信息哲学家曾就信息的本质、信息与认知等问题做过先期的研究,为大数据哲学研究做了一些铺垫。托夫勒在其《第三次浪潮》中就宣布人类已经进入了信息社会,信息将彻底改变人类的文明轨迹,在政治、经济、文化、工作、生活、教育等领域全方位地改变我们的社会。后来哲学家们对信息哲学进行了长期的探讨,例如国内学者邬焜、萧峰、刘刚等作了深入的研究。特别是邬焜教授,他30年来坚守在信息哲学领域,对信息的本体论、认识论和方法论等做了全方位的研究,取得了丰硕的成果。⑤这些信息哲学研究工作为大数据哲学研究提供了基础和借鉴。
(2)数据科学的哲学问题成为研究领域
由于计算机的普及,数据量越来越多,数据处理能力也越来越强,存储技术的进步和网络技术的发展让数据的存储和传输也发生了质变。地球与环境科学、生命与健康科学、数字信息基础设施和数字化学术信息交流等方面的科学家都越来越重视基于海量数据的科研活动、过程、方法,他们很早就注意到数据在科学技术研究中的巨大作用,因此越来越多地收集大量数据,并通过数据的处理和计算来发现科学规律,于是20世纪末就出现了数据挖掘这样一门学科。
美国学者、图灵奖获得者吉姆·格雷认为,在海量数据和网络无处不在的年代,以数据挖掘为代表的数据科学与技术是科学发现的重要途径,是继科学实验、理论推演和计算机仿真这三种科研范式之后的科学研究第四范式——数据密集型科学发现。⑥第四范式作为知识发现的又一条新通道和新范式,与前三种范式相辅相成,共同构成发现的认知和方法体系。
国内学者刘红也很早敏锐地注意到了数据在科学研究中的重要性以及数据科学的快速兴起。她的博士论文以科学数据和数据科学为研究对象,对其做了哲学研究:考察了从数到大数据的历史,探讨了数据的本体论进路、数据的认识论基础、数据方法与数据范式,并论述了数据革命对科学范式变革和社会变革的重要意义和影响。在博士论文的基础上,她发表了《数据哲学构建的初步探析》⑦、《数据革命:从数到大数据的历史考察》⑧,提出了数据哲学研究的初步设想,认为应将数据纳入科技哲学研究范畴。
(3)大数据伦理问题引起了学者的高度关注
对大众来说,大数据带来的最现实问题是个人隐私的泄漏与保护问题。2013年的“斯诺登事件”更加剧了人们对大数据时代人们个人隐私保护的担心,因此大数据伦理问题引起了大众和学者们的共同关注,也成了大数据哲学的研究热点。
英国学者帕克(John Parker)曾形象地描述过互联网带来的全面监控与隐私困境⑨,而美国学者戴维斯(Kord Davis)和帕特森(Doug Patterson)则在2012年9月就出版了其《大数据伦理学》(Ethics of Big Data)⑩,这是国际上第一部有关大数据伦理问题的学术专著。作者详细讨论了大数据技术兴起之后我们将面临着怎样的伦理挑战,又该如何应对这一挑战。他们认为,所有企业都应针对数据确立自身适用的道德规范,明确数据对自身的价值,重视数据中所涉及的身份(identity)、隐私(privacy)、归属(ownership)以及名誉(reputation),在技术创新与风险之间保持必要的平衡。
在国内,吕耀怀很早就对信息伦理做过比较全面的研究,而大数据兴起之后,邱仁宗立即发表论文《大数据技术的伦理问题》,探讨了与信息通讯技术及大数据技术有关的数字身份、隐私、可及、安全、安保、数字裂沟等伦理问题,讨论了解决这些伦理问题的进路,并且建议引入伦理治理概念,为制订行为准则、管理和立法建立一个伦理学基础。(11)因为个人或组织害怕自己的隐私信息因大数据被泄露并被他人非法利用,而大数据使用者则害怕不小心涉及个人隐私而缠上官司,因此大数据伦理研究更多地集中在大数据引发的隐私问题的讨论。段伟文在其论文《网络与大数据时代的隐私权》一文中比较集中地探讨了大数据将引发哪些个人隐私问题以及西方各国的个人隐私保护措施。(12)
(4)大数据哲学的全方位研究已经初步展开
还在大数据没有成为热潮之前,复杂网络研究者巴拉巴西(A-L.Barabasi)就在其著作《爆发》中提出了利用大数据对人类思想行为进行预测的问题,并认为基于大数据,人类93%的言行都可以被预测,因此他提出了大数据带来的思维变革问题,并用生动的事例刻画了大数据的新思维。(13)
大数据兴起之后,英国学者弗洛里迪(Luciano Floridi)马上在其《大数据及其经验论挑战》(14)一文中提出了大数据对经验认识论的挑战问题,而奥地利学者卡勒鲍特(Werner Callebaut)则在其《科学透视主义:科学哲学对大数据生物学挑战的回应》(15)中提出了大数据对本体论、认识论与方法论的挑战问题,并提出以科学透视主义作为大数据哲学挑战的回应。
国外对大数据进行全面哲学反思的要数英国学者、“大数据时代的预言家”维克托·迈耶-舍恩伯格。他在其畅销书《大数据时代》一书中以通俗易懂的非哲学语言提出了大数据的哲学意义,并将大数据与当年的望远镜、显微镜相提并论,认为大数据必将带来生活、工作和思维的大变革。他以“更多”(全体优于部分)、“更杂”(杂多优于单一)、“更好”(相关优于因果)简洁地概括了大数据时代的思维特征,并论述了“世界的本质就是数据”、“一切皆可量化”的大数据世界观,提出了大数据引发的个人隐私、数据独裁等伦理危机及其规制问题。(16)
在国内,李德伟在大数据概念刚刚提出的2012年底就发表了《大数据的数理哲学原理》和《科技大数据,哲学新思维》等论文,并于2013年初出版了《大数据改变世界》一书,提出了大数据的哲学基础和认识论问题。(17)
黄欣荣从2014年初开始发表一系列论文,就大数据技术与复杂性科学的关系,大数据思维与大数据方法论、大数据对科学认识论的发展等问题进行了相关的哲学研究,并从本体论、认识论、方法论、价值论和伦理学五个维度对大数据引发的哲学变革展开了全方位的探讨。(18)苗东升在论文《从科学转型演化看大数据》中,从科学转型的视角论述了大数据的革命性意义,并认为大数据的兴起将在哲学上引发本体论、认识论、方法论和价值论的改变。(19)苗东升与黄欣荣都从复杂性哲学转入大数据哲学研究,观点上也具有异曲同工之处。
在大数据方法论方面,张晓强、杨君游与曾国屏进行了比较系统的探讨。他们从界定大数据方法入手,比较了大数据方法与传统科学方法的区别,对大数据的方法论进行了功能、内涵、主体、逻辑等四个维度的考察,并探讨了大数据方法的核心特征及其意义。(20)
三、大数据哲学研究的五个维度
正在兴起的这场轰轰烈烈的大数据技术革命即将引发一场彻底的哲学革命,必将带来世界观、认识论、方法论、价值观和伦理观诸多方面的深刻变革,因此正在兴起的大数据哲学必须从这五个维度或者说五条路径进行全方位的哲学研究。
(1)本体论路径,主要探讨数据的本质以及大数据引发的世界观革命
在中外哲学史上,数据一般被看作刻画事物关系的参数,很少被看作世界的本质,唯有古希腊哲学家毕达哥拉斯提出“数是万物的始基”的思想。但随着大数据的兴起,数据被赋予世界本体的意义。大数据认为,世界的一切关系皆可用数据表征,一切活动都会留下数据足迹,万物皆由比特构成,因此皆可被数据化,世界就是一个数据化的世界,世界的本质就是数据,数据世界已经构成了一个独立的客观世界。因此,哲学史上的物质、意识的关系,变成了物质、意识和数据的关系;大数据的兴起改变了人类认知和理解世界的方式,带来了全新的大数据世界观。大数据本体论的论题主要有:哲学史上的数据观;物质、意识与数据;数据的本质与数据本体论;世界的数据化与大数据世界观等。主要有如下问题需要我们从本体论加以回答:数据究竟是什么,数据的本质是什么,数据与物质、精神之间是什么关系,数据世界究竟是客观的还是主观的,世界能否被彻底数据化,量化一切的大数据目标能否实现,大数据怎么看世界,大数据世界观与传统世界观有什么本质区别,等等。
(2)认识论路径,主要探讨基于数据挖掘的知识发现及其对传统认识论的挑战
近现代科学最重要的特征是寻求事物的因果关系,而大数据技术最重要的特征却是重视相关关系。大数据通过海量数据来发现事物之间的相关关系,通过挖掘数据来寻找数据规律,并利用数据之间的相关关系来解释现象和预测未来。大数据通过“让数据发声”,提出“科学始于数据”,数据成为科学认识的基础,而云计算等数据挖掘手段将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了认知新途径。(21)大数据通过理论和经验的数据化,实现了唯理论和经验论的数据化统一,并可能成为科学划界的新标准。大数据的相关性、模糊性和整体性解释将成为科学解释的新方向。因此,大数据认识论有主要论题:相关性对因果性的挑战;数据挖掘与科学发现的逻辑;数据规律与知识的真理性;大数据与科学划界,大数据与科学解释;传统认识论危机与大数据认识论。主要的认识论问题有:数据与经验的关系是什么?传统经验论是否将走向大数据经验论?大数据是否将成为科学研究的新对象?数据化能否作为科学划界的新标准?科学究竟始于经验、问题还是数据?数据挖掘能否成为科学发现的新模式?相关性与因果性是什么关系?相关性能否超越因果性?大数据解释能否成为科学解释新方式?数据挖掘本质上是否仍属于归纳法?大数据对传统归纳法有哪些超越?通过数据挖掘而来的数据规律是否具有真理性?如此等等。
(3)方法论路径,主要探讨大数据思维及其对科学方法论的变革
大数据技术革命首先表现为思维方式的革命,大数据对传统的机械还原论进行了深入批判,提出了整体、多样、关联、动态、开放、平等的大数据思维,这些新思维具有复杂性思维特征,并得到了技术实现。(22)大数据提出了数据化的整体论,实现了还原论与整体论的融贯;承认复杂的多样性,突出了科学知识的语境性和地方性;强调事物的关联性,认为事实的存在比因果关系更重要;通过事物的数据化,实现了定性定量的综合集成。因此,数据挖掘成了新时代的科学新工具,大数据技术带来了大数据思维与大数据方法论。(23)该路径的主要论题有:大数据时代的思维变革;大数据思维的复杂性特征;数据挖掘的科学方法意蕴;大数据对科学方法论的革命。大数据方法论的主要问题有:大数据思维是一种怎样的思维新方式?大数据思维的特征是什么?大数据方法的本质是什么?大数据方法是继演绎法、归纳法之后的科学新工具吗?大数据方法与整体论方法、还原论方法是什么关系?大数据方法与复杂性方法是什么关系?大数据方法与定性、定量研究方法有什么样的区别与联系?传统的数据化与大数据的数据化有什么区别?怎么利用大数据方法进行自然科学、社会科学与人文学科的数据化与数据挖掘?大数据的基本方法、基本原则、基本步骤是什么?等等。
(4)价值论路径,主要讨论数据的财富价值及其对传统价值观的转变
大数据时代的来临让数据从记录符号变成了有价的资源,数据从符号价值逐渐延伸到具有认知、经济、政治等诸多价值的财富。在传统价值观看来,土地、材料、能源、资金等被看作财富的象征,而在大数据时代,数据就像一种神奇的钻石矿,成了一种新财富,而且它与传统财富易被消耗不同,数据财富可以交叉复用,取之不尽,用之不竭,是真正的可持续利用的资源。挖掘海量数据可以发现规律、预测未来,数据成为科学研究的重要来源。此外,大数据技术能够从文档、图片、音频、视频等非结构化数据中挖掘重要数据,大数据成为人文社会科学研究重要工具,更成为政府、企业等管理者不可或缺的管理手段。因此,大数据时代让数据从原来只是事物关系的表征符号变成了具有重要价值的数据财富,从而带来了传统价值观的变革,并形成了新的大数据价值观。该路径的主要议题有:从数据符号到数据财富;数据财富与传统财富的比较;数据财富的本质;大数据时代的价值观变革。大数据价值论的主要问题有:数据的价值为什么到大数据时代才凸显出来?大数据时代的数据有哪些价值?数据财富的本质是什么?数据财富与传统的财富有什么本质差别?如何挖掘数据财富?数据产业会给传统产业带来哪些变革?数据产业与传统产业有什么本质差别?数据产业链有哪些基本构成?数据财富与传统财富怎样保持平衡?什么是大数据财富观?数据财富观会给传统价值观带来哪些冲击和变革?如此等等。
(5)伦理学路径,主要讨论由于数据滥用所引发的传统伦理观的危机
大数据技术要求实现数据的自由、开放和共享,我们由此进入了数据共享的时代。但由此我们也时刻被暴露在“第三只眼”的监视之下:淘宝、亚马逊监视着我们的购物习惯,百度、Google监视着我们的网页浏览习惯,移动、联通和电信掌握着我们所有通话和短信记录,微信、QQ则储存着我们的交往秘密,而随处可见的各种监控则让人无处藏身。因此大数据技术带来了个人隐私保护的隐忧,也带来了个别组织的数据滥用或垄断的担心,甚至可能侵犯人类神圣的自由意志,由此产生了大数据时代人类的自由与责任问题并对传统伦理观带来了新挑战。该路径的主要论题有:大数据时代与信息共享;“第三只眼”与隐私保护;数据预测与个人意志;大数据时代人类的自由与责任。大数据伦理的基本问题有:大数据的共享精神有什么利弊?
大数据将带来哪些伦理问题?数据权的本质是什么?大数据时代的个人隐私将可能出现哪些问题?大数据时代如何保护隐私?在数据开放与隐私保护之间如何保持张力?怎样防止数据滥用?大数据伦理问题是否可以通过立法来规制?怎样用伦理道德规范来治理大数据伦理危机?大数据时代如何保护人的自由?大数据时代的政府、企业和个人有哪些法律责任和伦理责任?大数据时代如何平衡人的自由与责任?我们要做哪些伦理观改变来适应这个大数据时代?大数据伦理有哪些基本内容?大数据会给传统伦理学带来哪些机遇与挑战?等等。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01