京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据不能替代理性思考_数据分析师培训
有关大数据的讨论,几年间已经从早期的概念发展到今天的应用,应用领域也已从早期的商业领域拓展到学术领域、政策领域。首先,大数据特殊之处在于其数据来自于全体,而不再是部分数据的采样。采样数据无论如何抽取都会有抽样偏差,进而可能导致结果的偏差,在这个意义上,大数据时代,可以依靠强大的数据处理能力处理全部的数据,这是多么令人兴奋。其次,数据作为知识的重要来源,抽样调查数据也好,二手文献数据也好,人们均是从中进行分析并获取知识,但这类数据中包含的变量总归有限,知识的获取也因而受限,而大数据将大量结构复杂、类型众多的异构数据结合在一起,构成有无限组合可能的数据集合,使用计算能力可以无限扩充的云计算来进行,作为知识生产来源的大数据的数量级别进而达到PB级,因此其中潜藏的知识不知几何,人们获取知识的能力也可能会大大增加。
大数据的先行者通过各种数学和物理算法在大数据中掘金,一些人类过去未能发现的潜在关联被发现和应用,并取得了瞩目的成就和进展。基于此,大数据理论基本都提出:基于大数据发掘出的“有效”相关性关系即可进行预测;有效性不需要知道“为什么”,知道“是什么”即可。数据和算法驱动研究成为大数据研究的主要范式。我相信,大数据的无预设前提的数据驱动的相关关系的挖掘,有着解放人类被理论局限性束缚的手脚的功用。但是,我们会不会走出一个陷阱,又踏入另外一个陷阱呢?
我首先想讨论的第一个问题是,来自于全体数据的结论就是可靠的吗?在我参加的一次博士论文答辩中,答辩人报告,她使用全国人口普查数据发现,老年人的健康与财富之间的关系是:老年人健康水平越低则财富越多,或者反过来说,老年人财富越多越不健康。评委当时一片哗然。事实上这是合情理的,其机理就是,一个越不健康的老人,就需要越多越好的医疗资源才能存活,而越多的财富能保证其越多越好的医疗资源。因此,相同的不健康状况的老人中,钱越多则具有越高的生存概率。换个角度看,不健康的老人中,没钱的死了,有钱的活下来了;越是不健康的老人中,只有越有钱的才能存活。因此,全体数据的结果是:老人的财富与健康呈现出负相关。这是来自于全体数据的结果,显然是合理的,但其显示的相关关系却有些荒谬。
这样就导致了我的第二个问题:追求这样的相关关系有价值吗?这样的相关关系可信吗?我想读者都不会相信,健康与财富呈现出的负相关是正确的相关关系,而出于理性,相信的恰恰是健康与财富应该呈现出正相关的关系。在这里,社会实体所表现出来的模式显然违背了我们对社会的理论认识。我们都知道,理论是现实在头脑中的反映,但是这个例子告诉我们,人类通过理性建构的理论并非社会现实在头脑中的简单反映。这里,我提出一对概念来阐述我的观点。变量之间的关系有两种表现形式,一种是社会实体的表现形式(real pattern),一种是社会理论的表现形式(relation pattern)。前者是社会实体直接体现出来的变量和变量之间的相关关系,后者是学者通过理性思考建构的理论空间的因果关系。变量在社会实体上表现的相关关系,由于社会实体的选择性偏误(例子中是由死亡的非随机性造成),导致了相关关系的扭曲,甚至相反。因此,人们宁愿相信自己的理性,而不愿只是机械地接受社会实体表现出来的模式。
人类的理性,使得我们知晓变量间在社会实体上的表现形式并不必然等于社会理论上的表现形式。对大数据使用数据驱动,能获得的仅仅是社会实体上的表现形式,这可能与理论空间的因果关系一致,也可能完全相反。因此,放弃人的理性思考,放弃获得具有严密因果逻辑的理论上的表现形式,使用找到相关关系即可的大数据分析范式——数据驱动,在我看来是无法接受的。大数据的分析,仍然需要理论驱动和理论理解所建构的因果关系。因此,无论如何精巧的大数据分析工具的使用,都不能代替生产工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22