
大数据不能替代理性思考_数据分析师培训
有关大数据的讨论,几年间已经从早期的概念发展到今天的应用,应用领域也已从早期的商业领域拓展到学术领域、政策领域。首先,大数据特殊之处在于其数据来自于全体,而不再是部分数据的采样。采样数据无论如何抽取都会有抽样偏差,进而可能导致结果的偏差,在这个意义上,大数据时代,可以依靠强大的数据处理能力处理全部的数据,这是多么令人兴奋。其次,数据作为知识的重要来源,抽样调查数据也好,二手文献数据也好,人们均是从中进行分析并获取知识,但这类数据中包含的变量总归有限,知识的获取也因而受限,而大数据将大量结构复杂、类型众多的异构数据结合在一起,构成有无限组合可能的数据集合,使用计算能力可以无限扩充的云计算来进行,作为知识生产来源的大数据的数量级别进而达到PB级,因此其中潜藏的知识不知几何,人们获取知识的能力也可能会大大增加。
大数据的先行者通过各种数学和物理算法在大数据中掘金,一些人类过去未能发现的潜在关联被发现和应用,并取得了瞩目的成就和进展。基于此,大数据理论基本都提出:基于大数据发掘出的“有效”相关性关系即可进行预测;有效性不需要知道“为什么”,知道“是什么”即可。数据和算法驱动研究成为大数据研究的主要范式。我相信,大数据的无预设前提的数据驱动的相关关系的挖掘,有着解放人类被理论局限性束缚的手脚的功用。但是,我们会不会走出一个陷阱,又踏入另外一个陷阱呢?
我首先想讨论的第一个问题是,来自于全体数据的结论就是可靠的吗?在我参加的一次博士论文答辩中,答辩人报告,她使用全国人口普查数据发现,老年人的健康与财富之间的关系是:老年人健康水平越低则财富越多,或者反过来说,老年人财富越多越不健康。评委当时一片哗然。事实上这是合情理的,其机理就是,一个越不健康的老人,就需要越多越好的医疗资源才能存活,而越多的财富能保证其越多越好的医疗资源。因此,相同的不健康状况的老人中,钱越多则具有越高的生存概率。换个角度看,不健康的老人中,没钱的死了,有钱的活下来了;越是不健康的老人中,只有越有钱的才能存活。因此,全体数据的结果是:老人的财富与健康呈现出负相关。这是来自于全体数据的结果,显然是合理的,但其显示的相关关系却有些荒谬。
这样就导致了我的第二个问题:追求这样的相关关系有价值吗?这样的相关关系可信吗?我想读者都不会相信,健康与财富呈现出的负相关是正确的相关关系,而出于理性,相信的恰恰是健康与财富应该呈现出正相关的关系。在这里,社会实体所表现出来的模式显然违背了我们对社会的理论认识。我们都知道,理论是现实在头脑中的反映,但是这个例子告诉我们,人类通过理性建构的理论并非社会现实在头脑中的简单反映。这里,我提出一对概念来阐述我的观点。变量之间的关系有两种表现形式,一种是社会实体的表现形式(real pattern),一种是社会理论的表现形式(relation pattern)。前者是社会实体直接体现出来的变量和变量之间的相关关系,后者是学者通过理性思考建构的理论空间的因果关系。变量在社会实体上表现的相关关系,由于社会实体的选择性偏误(例子中是由死亡的非随机性造成),导致了相关关系的扭曲,甚至相反。因此,人们宁愿相信自己的理性,而不愿只是机械地接受社会实体表现出来的模式。
人类的理性,使得我们知晓变量间在社会实体上的表现形式并不必然等于社会理论上的表现形式。对大数据使用数据驱动,能获得的仅仅是社会实体上的表现形式,这可能与理论空间的因果关系一致,也可能完全相反。因此,放弃人的理性思考,放弃获得具有严密因果逻辑的理论上的表现形式,使用找到相关关系即可的大数据分析范式——数据驱动,在我看来是无法接受的。大数据的分析,仍然需要理论驱动和理论理解所建构的因果关系。因此,无论如何精巧的大数据分析工具的使用,都不能代替生产工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18