
大数据中一个耳熟能详的说法是:大数据长于分析相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。这个问题,被称为因果推断(causal inference),它是苹果iPhone6的语音识别和谷歌的无人驾驭汽车技术的基础。这个领域的大牛,美国工程院院士于达•珀尔(Judea Pearl,国内一般译为朱迪亚•珀尔)因此获得2011年的图灵奖。珀尔院士提出概率和因果推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。
珀尔院士的思想,在图灵问题的顶层设计高度,改变了我关于大数据的认识。与珀尔院士的深度思想交流事出偶然。“美国大师行”的旧金山站安排9月3日下午见珀尔院士。本来只是礼节性的见面,请他简单介绍一下研究成果。但珀尔院士显然理解错了,以为是专业交流,于是准备了64页的数学讲义。当他听说听众竟然来自媒体、法律、经济等文科背景时,不禁瞠目结舌。他说:“对不起,我不知道你们……”。改讲义已来不及了,只好硬着头皮,对牛谈琴。不料,两小时后,珀尔院士谈得兴起,早忘了我们是学什么的,奔放的数学思想喷薄而出,图论、概率论、非线性数学的公式象袋鼠一样,隔着十几步十几步地跳跃,如黄河之水,一发而不可收。时间已到,主办方反复提示无效,又讲了一个多小时。
我身旁的兄弟,被我晃醒,好像还在梦中,几乎已经坐不正了。我靠一杯一杯的咖啡支撑,勉强听着。之后,却意外地听入了迷,最后听到如醉如痴。因为我发现珀尔院士讲的,正是我在大数据上日思夜想的问题。
近年来,我在介绍大数据时,对相关关系与因果关系这个说法一直心存疑惑。虽然也引进美国大数据理论,如巴拉巴西院士的说法,但这个疑惑并没有消除。相关关系对应经验归纳,因果关系对应理性演绎。但难道大数据只有归纳,没有演绎吗,或者问,大数据如何才能实现归纳与演绎间的转化?在这个思维瓶颈上,珀尔院士一下点破了我。
珀尔院士走后,大家面面相觑,互相打听,这三个半小时,灌的是什么东东。在交流学习体会时,一位数学专业的专家说,他感到珀尔院士是在用一种非线性的方法,解决线性的问题。统计过去不能处理因果关系,只能处理相关关系,珀尔院士的贡献是把因果关系引入了统计概率分析,把非结构化的东西半结构化了。半途接替口语翻译进行专业翻译的查理,是腾讯大数据师,专业研究方向与珀尔同领域。他以“西安的模型能否用于成都”为比喻,从专业角度又向大家解释了一遍。我被当作文科的代表,在毫无心理准备的情况下,推到台上交流体会。直到被研究非线性物理出身的查理超赞时,才确认自己听的、想的,确实是珀尔院士讲的,感觉像中了奖一样。
我一上来就说,图灵问题的核心是人与自然(机器)关系问题,人工智能就是要实现二者的统一。这个问题对应的今天的主题,是定性(非结构化)与定量,归纳与演绎,感性与理性的关系——相关关系与因果关系——如何统一的问题。用珀尔院士的话说,就是从巴比伦思维到雅典思维的问题(The causal revolution – from associations to counterfactuals – from Babylon to Athens)。大数据发展当前存在的问题是,偏离了图灵原问题的轨道,变成理性计算的天下,以谷歌的数学算法为代表;而忽视了脸谱的算法(基于人与人associations的感性算法)。后者在统计学中,就是相关关系数据分析。珀尔院士对后者也不满意,因此才批评说“不要老想数据,先把现实用模型模拟出来”(大意如此),意思是要把非结构化的定性问题结构化。
查理此前曾说珀尔院士提出的是休谟的问题。我说,珀尔院士提出和解决问题的思路让我想起康德,我觉得他今天讲的内容,就是《纯粹理性批判》的数学版,而方法上的思路让我联想到牛顿与莱布尼茨。我回国后查阅专业资料时,发现有人这么评价珀尔院士的问题意识:“有人提到了哲学(史)上的休谟问题(我的转述):人类是否能从有限的经验中得到因果律?这的确是一个问题,这个问题最后促使德国哲学家康德为调和英国经验派(休谟)和大陆理性派(莱布尼兹-沃尔夫)而写了巨著《纯粹理性批判》。”看来所见略同。
康德《纯粹理性批判》的原问题,是经验与理性之间的关系,相当于大数据中相关关系与因果关系之间的关系。我说,康德当年解同样问题的思路,象极了珀尔院士。康德设置了一个叫“图式”的概念,作为沟通经验与理性的中间框架(FRAME)。“图式”的特征是,兼具经验的具体性与理性的普遍性,但既不同于经验,也不等于理性。珀尔院士的“图式”就是因果图 (Causal Diagram),是他的结构化理论。这个结构不是完全理性的,而是可以灵活调整的。我说,珀尔院士的结构与康德的图式唯一不同在于,前者设置了可替换的部件模块,用于根据情况临时调整,因此不是机械的结构,而是活的、松耦合的结构(例如,就象查理讲的,西安的“普遍真理”模型,只要更换一些适应成都“具体实践”的子模块,就可以用于成都)。
在方法上,珀尔院士以柏拉图著名的洞穴寓言,说明因果(真相)、结构(人)与相关(影子)之间的映射关系。我说,这更象牛顿和莱布尼茨的方法论:以理性为极限值,以经验为数列,中间设一个结构化的函数(相当于洞穴中的人)。经验(相关)可以无限接近理性(因果),永远达不到因果(极限值),但可以视为等于因果。珀尔院士的独特之处,只不过是把这个“函数”(图式),泛函化了,实现了从结构化向非结构化、从线性到非线性的转化。为此,在结构模型上,进行大量复杂的数学展开,成为他理论的重点。他的模型被称为“图模型”或者“贝叶斯网络”(Bayesian network),用来描述变量联合分布或者数据生成机制。好在听众睡觉时,他讲的都是这一部分具体内容。关于他的因果结构理论,我听课时私底下议论说,这个用流形上的微积分(Calculus on Manifolds),所谓“橡皮膜上的拓扑几何学”也做得出来。
当前,人们讨论大数据,有一个不好的倾向,在结构化还没有打好基础情况下,片面追求所谓非结构化数据。这样就陷入珀尔院士批评的“老想数据”的状态,相当于解微分的时候,不列函数,就想直接从数列中求极值一样。在中国,这种情况尤为严重。这会把大数据搞成脱离表义基础的禅宗。在商业上,不排除实用主义地利用大数据,找到卖货上的皮毛联系,但更适合小摊小贩,毕竟不知其所以然,就做不大,做不长。
不过这也不奇怪,整个统计学和概率论,目前还停留在这个水平上,大多是关于“相关关系”的理论,而关于“因果关系”的理论非常稀少。Karl Pearson 就明确反对用统计研究因果关系。困扰统计的根本问题(辛普森悖论,Yule-Simpson’s Paradox),也同样是困扰大数据的根本问题。
泛而言之,在整个逻辑学中,归纳论只能表示事物之间的相关关系,还无法指出真正的因果关系。这是有人类以来的难题。巴比伦人在毕达哥拉斯之前一千年已掌握了勾股定理的应用,也早就开始了天文观察;但雅典人却从经验中提炼出了天文学的思辨理论。我们现在在还只是大数据上的巴比伦人。
话说回来,因果推断过犹不及。如果把相关关系完全结构化了,也有问题,那就会排斥人类自由意志的空间。玻尔院士似乎还没有想过其中的哥德尔悖论问题。正如段永朝评论玻尔院士的那样:“不可知与可知,一定是你中有我,我中有你。他们想解决这个问题。确定性、不确定搅成一团。一时来看,方法上实现了;但根本上来说,科学观要升级。”
想一想珀尔院士也真不容易,毕业于人称的“野鸡”大学,超前人类几十年为大数据奠基,却少有人听懂他。他儿子Daniel Pearl是华尔街日报的驻外记者,9-11后在巴基斯坦被恐怖组织抓住,几天后斩首碎尸。珀尔院士没回答提问就走了,说要陪夫人。因为就在上午传来消息,第二位美国记者象他儿子一样被恐怖组织斩首,他夫人一定会再次想起儿子。(文章来源:CDA数据分析师)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15