京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据不能替代理性思考_数据分析师培训
有关大数据的讨论,几年间已经从早期的概念发展到今天的应用,应用领域也已从早期的商业领域拓展到学术领域、政策领域。首先,大数据特殊之处在于其数据来自于全体,而不再是部分数据的采样。采样数据无论如何抽取都会有抽样偏差,进而可能导致结果的偏差,在这个意义上,大数据时代,可以依靠强大的数据处理能力处理全部的数据,这是多么令人兴奋。其次,数据作为知识的重要来源,抽样调查数据也好,二手文献数据也好,人们均是从中进行分析并获取知识,但这类数据中包含的变量总归有限,知识的获取也因而受限,而大数据将大量结构复杂、类型众多的异构数据结合在一起,构成有无限组合可能的数据集合,使用计算能力可以无限扩充的云计算来进行,作为知识生产来源的大数据的数量级别进而达到PB级,因此其中潜藏的知识不知几何,人们获取知识的能力也可能会大大增加。
大数据的先行者通过各种数学和物理算法在大数据中掘金,一些人类过去未能发现的潜在关联被发现和应用,并取得了瞩目的成就和进展。基于此,大数据理论基本都提出:基于大数据发掘出的“有效”相关性关系即可进行预测;有效性不需要知道“为什么”,知道“是什么”即可。数据和算法驱动研究成为大数据研究的主要范式。我相信,大数据的无预设前提的数据驱动的相关关系的挖掘,有着解放人类被理论局限性束缚的手脚的功用。但是,我们会不会走出一个陷阱,又踏入另外一个陷阱呢?
我首先想讨论的第一个问题是,来自于全体数据的结论就是可靠的吗?在我参加的一次博士论文答辩中,答辩人报告,她使用全国人口普查数据发现,老年人的健康与财富之间的关系是:老年人健康水平越低则财富越多,或者反过来说,老年人财富越多越不健康。评委当时一片哗然。事实上这是合情理的,其机理就是,一个越不健康的老人,就需要越多越好的医疗资源才能存活,而越多的财富能保证其越多越好的医疗资源。因此,相同的不健康状况的老人中,钱越多则具有越高的生存概率。换个角度看,不健康的老人中,没钱的死了,有钱的活下来了;越是不健康的老人中,只有越有钱的才能存活。因此,全体数据的结果是:老人的财富与健康呈现出负相关。这是来自于全体数据的结果,显然是合理的,但其显示的相关关系却有些荒谬。
这样就导致了我的第二个问题:追求这样的相关关系有价值吗?这样的相关关系可信吗?我想读者都不会相信,健康与财富呈现出的负相关是正确的相关关系,而出于理性,相信的恰恰是健康与财富应该呈现出正相关的关系。在这里,社会实体所表现出来的模式显然违背了我们对社会的理论认识。我们都知道,理论是现实在头脑中的反映,但是这个例子告诉我们,人类通过理性建构的理论并非社会现实在头脑中的简单反映。这里,我提出一对概念来阐述我的观点。变量之间的关系有两种表现形式,一种是社会实体的表现形式(real pattern),一种是社会理论的表现形式(relation pattern)。前者是社会实体直接体现出来的变量和变量之间的相关关系,后者是学者通过理性思考建构的理论空间的因果关系。变量在社会实体上表现的相关关系,由于社会实体的选择性偏误(例子中是由死亡的非随机性造成),导致了相关关系的扭曲,甚至相反。因此,人们宁愿相信自己的理性,而不愿只是机械地接受社会实体表现出来的模式。
人类的理性,使得我们知晓变量间在社会实体上的表现形式并不必然等于社会理论上的表现形式。对大数据使用数据驱动,能获得的仅仅是社会实体上的表现形式,这可能与理论空间的因果关系一致,也可能完全相反。因此,放弃人的理性思考,放弃获得具有严密因果逻辑的理论上的表现形式,使用找到相关关系即可的大数据分析范式——数据驱动,在我看来是无法接受的。大数据的分析,仍然需要理论驱动和理论理解所建构的因果关系。因此,无论如何精巧的大数据分析工具的使用,都不能代替生产工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22