京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与认识论一、主体与对象
传统认识论的认识主体是个人,或者基本上属于同一个“共同体”,具有相同或相似的“范式”的团队。近年来,越来越多的情况是,一方以种种方式委托另一方来认识某个对象,如咨询、课题,以及知识流程外包等,认识的意向方与实施方分离,分为甲方和乙方。知识外包是在拥有相当不同范式的各异的共同体之间。为完成甲方的特殊需求,乙方需编写特殊的程序和软件。相对而言,乙方和应用互联网大脑的人员具备专业的技术能力,委托方可以有特殊需求的科学家,更会有大量来自政府、企业界和社会的甲方,乙方需要相当熟悉甲方的需求才有可能完成后者外包的事项,以及向甲方提供可视化的分析。因而主体在分化的同时紧密相关。
随着认识主体的分化,认识的动机目的也发生相应的变化。“小科学”时代,认识为了求真;“大科学”时代,认识的动机承担越来越多来自社会的需求,较之以往更有可能发生知识的“社会建构”。大数据时代,“面对海量信息,任何人都只需要对自己有益和有用的信息”。一方面甲方的意图带有明显目的性,另一方面,乙方因与甲方分离而较少利益相关,有可能相对客观冷静地从事求真的研究。新的问题是:乙方如何判断甲方所委托事项的合理性。只管求真的乙方是否可以因认识主体的分离而免责,可以不顾其中的伦理道德,有求必应。在高度分化的认识主体之间还需要有关系到责权利等事项细致妥贴的制度安排。简言之,在大数据认识论中,认识主体高度分化并社会化。
从另一个角度看,大数据认识论的认识主体可以清晰地分为三个层次:政府、公司,以及个人,对应于国家、市场和社会。政府由大数据把握全局;公司由大数据了解政府与个人的需求,理解相关政策,洞悉竞争对手,以及掌控资源。一个健全的社会拥有与政府和公司处于均衡状态的个人。目前还看不到个人在大数据认识论中作为主体的地位和作用。可以确定的是,即使个人作为大数据认识论的主体,其影响也与政府和公司不可同日而语。在这样的层次中,马尔库塞曾经批判的“单面人” 隐约可见。
相对而言,在大数据认识论中,认识对象的变化更具有根本性。传统的认识论所涉及的认识对象是客观存在,是“世界1”(包括被看作世界1的生物学意义上的人类),而大数据认识论中的认识对象既非世界1,亦非世界2对世界1的认识结果亦即“世界3”(参见走进世界3-知识论之一),而是世界2的宏观表征。
大数据之所以得以成为研究对象,首先在于提供大数据的人和人际关系发生变化。近代以降,人是机器、单子,社会是由零件组装而成可拆卸的机器。随后,人是化工厂、细胞的王国,着眼点基本上都是单独的个人,因而心理学的对象是独立的个人。20世纪初,人“成长为”社会动物,个人的心理绕不过社会影响;反之,社会现象也需要下沉到个人心理予以说明;个人与社会难分难舍,其结果是,个人心理变幻莫测,社会现象杂乱无章。直到互联网时代和功能各异的社交网站出现。社会软件建立了一种新型的远程社会关系,从面对面地交往到数字操纵的交往,深刻地修改了已有的社会模式。“人类行为较之于相对独立的个体决策行为发生了显著变化,”构建了某种“心有灵犀一点通”而又变动不居的人际间的相关性,使得数据不再杂乱无章,而是成为有规可循的大数据,成为有价值的研究对象。“由于能够测得更准、计算得更加精确,社会科学也正在脱下‘准科学’的外衣,在21世纪全面迈进科学的殿堂”。
在现象层面,作为对象的大数据有以下特征:首先是所谓“4V”,即数据量大(Volume),类型繁多(Variety),价值密度低 (Value),以及速度快时效高(Velocity);在深层是人类在大的时空尺度,也就是在个体不可比拟的量级所显示出的前所未见的属性。“揭示冗余度支持的有统计意义的情报及其关联,从大众层面而不是个体层面来理解人类行为”。在某种程度上,大数据认识论不是由个体层面理解人类行为,正如实验心理学不是由单个脑细胞理解人的感知一样。
正因为此,作为世界3的大数据在某种意义上具有与世界1一个同样的特征:客观性。“传统民调需要设计问卷,可能有意无意引入主观因素,不能完全排除模糊歧义乃至误导。大数据是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。”由此可以看出客观性的三点依据,其一即数据之大。这一点类似于所谓“主体间性”。显然,两三个人之间的主体间性与数以万计个体的主体间性不可同日而语。昔日社会学的一大困惑在于数据不够大,因而难以进行客观的研究。其二,数据之全,不仅是“二八定律”中的“二”,而且是“八”,也就是“长尾”,这就极大提升了普罗大众在社会生活中的权重。不过,随着“少数服从多数”成为现实,如何避免多数人的“暴政”,成为大数据时代有待解决的问题之一。其三,所谓 “自然流露”,也就是无意识。一方面,这种自然流露就是个体的主观意识,另一方面,个体并不知晓其作为大数据认识论的认识对象。大数据的客观,所需要的正是这样的“主观”。千万个这样相对纯粹的主观最终汇成客观。就此而言,作为世界2宏观表征的大数据可以归入波普尔的“客观知识”,也就是世界3。
作为认识对象的大数据所呈现出整体上的特定关系,可以借用“漩涡与人性” 的隐喻来说明这一点。网友评论说,如果把水分子用纳米碳管来输运,一样会出现“整体的拥堵”;反之,如果楼梯足够宽,人类下楼,怎么也不会出现这个拥堵。宏观流体定律基于最小颗粒尺度与所考虑的尺度相比可以忽略。在大数据里,个人相当于旋涡中的水分子,其“毛糙”(李德毅)的边缘和瞬间的变化可以忽略。由此再次可见,数据之“大”的关键地位。
大数据不仅具有“4V”的特征,而且处于不断增长之中。人类存在一天,大数据就与日俱增,永不枯竭。人们对于“物质无限丰富”尚有争论,至少还需要做一番解释,对于大数据,似乎甫一问世,即已是无限,乃至需要培育“删除”和“忘却”的“美德”(参见《删除:大数据取舍之道》——《互联网时代》观后4)。无限的大数据或将有助于解决资源的短缺,让有限的资源用到刀口上。
主体与对象的特殊关系也是大数据认识论与传统认识论的一个值得注意的不同点。其一,由于在大数据的背后是处于群体中的毫不知情的人,是众多社会关系的“总和”,于是认识主体譬如说某家公司,面对握有的大数据便有如同上帝俯视芸芸众生之感,认识主体与对象之间成为牧羊人与羊的关系,“羊”的隐私在 “牧羊人” 那里透明。此外,相应于认识主体的三个层次,自然也就有作为对象的不同数据。无疑,政府所面对的数据最“大”,公司次之。不过,跨国公司认识对象之大完全可能超过不少国家。个人所能够认识的数据在大小、内容和性质上均不可与政府与公司手上的数据同相提并论。个人以其数量之大,以及彼此间无意识的主体间性来平衡政府和公司。
其二,上帝会满足于“俯视”,有人则把对数据的占有和控制看作是在陆权、海权、空权之外的另一种国家核心资产。这一点在斯诺登所曝光的“棱镜” 中得到充分显示。IBM执行总裁罗睿兰则认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”大数据既可能“成为人类至关重要的自然资源”,也可能成为“另一种国家核心资产”。谁对大数据拥有产权,甚至主权?传统认识论以世界1为对象,世界1对任何人一视同仁,因而在认识论上并没有所有权之争,所有权主要是在实践层面,在应用领域。在大数据认识论中,所有权进入到认识层面。在这一点上,大数据不同于世界3。个人、公司、国家可以独自开发、独占其中的一部分。大数据不仅具有认识价值,而且拥有因人而异的使用价值。所谓的“计算社会科学”可能会变成私人公司和政府机构的专属领域,或许会出现占有私有数据的特权学术研究群体,无助于公众利益。美国伦理审查委员会委员(U.S. Institutional Review Boards)认为,必须增强技术知识来了解产生侵权和个人伤害的可能性,因为新的危害的产生条件不同于现存的模式。
其三,由此可以还引出一点,那就是技术手段在大数据认识论中的极端重要性。棱镜表明,技术手段可以用于发现、开发大数据,挖掘大数据中的金矿,以及在于控制和支配。由此可见,在大数据认识论中,技术比以往任何时候发挥更大的作用。对此有必要引起高度重视。“大数据时代,技术的有效性要比科学的完整性更重要!”
大数据,受到技术手段和权力的制约和影响。技术在于开发,关系到作为对象的大数据之大、之深,以及之利;权力在于选择、控制与支配,控制大数据的种类、以及透明和共享的程度,并由此支配放牧的羊。虽然主体与对象在一定程度上可以互易,此时此地的主体在另一个场合可能就成为他人的对象,不过,拥有更先进技术手段和更大权力者无疑更会是牧羊人。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04