京公网安备 11010802034615号
经营许可证编号:京B2-20210330
三个案例透析大数据思维的核心
逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系。
以下三个案例分别来自药品研发、司法判决与广告投放,从三个不同的角度了解大数据思维的核心。
大数据与药品研发:寻找特效药的方法
比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。
青霉素的发明过程就非常具有代表性。首先,在19世纪中期,奥匈帝国的塞麦尔维斯(Ignaz Philipp Semmelweis,1818—1865)a、法国的巴斯德等人发现微生物细菌会导致很多疾病,因此人们很容易想到杀死细菌就能治好疾病,这就是因果关系。不过,后来弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就要寻找能够从人体内杀菌的物质。
最终在1928年弗莱明发现了青霉素,但是他不知道青霉素杀菌的原理。而牛津大学的科学家钱恩和亚伯拉罕搞清楚了青霉素中的一种物质—青霉烷—能够破坏细菌的细胞壁,才算搞清楚青霉素有效性的原因,到这时青霉素治疗疾病的因果关系才算完全找到,这时已经是1943年,离赛麦尔维斯发现细菌致病已经过去近一个世纪。
两年之后,女科学家多萝西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子结构,并因此获得了诺贝尔奖,这样到了1957年终于可以人工合成青霉素。当然,搞清楚青霉烷的分子结构,有利于人类通过改进它来发明新的抗生素,亚伯拉罕就因此而发明了头孢类抗生素。
在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。
其他新药的研制过程和青霉素很类似,科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。这是一个非常漫长的过程,而且费用非常高。在七八年前,研制一种处方药已经需要花费10年以上的时间,投入10亿美元的科研经费。
如今,时间和费用成本都进一步提高;一些专家,比如斯坦福医学院院长米纳(Lloyd Minor)教授则估计需要20年的时间,20亿美元的投入。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内a赚回20亿美元的成本,就不可能有公司愿意投钱研制新药了。
按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。
如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5 000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。
当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。
大数据思维与司法:为香烟定罪
在过去,由于数据量有限,而且常常不是多维度的,这样的相关性很难找得到,即使偶尔找到了,人们也未必接受,因为这和传统的观念不一样。20世纪90年代中期,在美国和加拿大围绕香烟是否对人体有害这件事情的一系列诉讼上,如何判定吸烟是否有害是这些案子的关键,是采用因果关系判定,还是采用相关性判定,决定了那些诉讼案判决结果。
在今天一般的人看来,吸烟对人体有害,这是板上钉钉的事实。比如美国外科协会的一份研究报告显示,吸烟男性肺癌的发病率是不吸烟男性的23倍,女性则是相应的13倍a,这从统计学上讲早已经不是随机事件的偶然性了,而是存在必然的联系。但是,就是这样看似如山的铁证,依然“不足够”以此判定烟草公司就是有罪,因为它们认为吸烟和肺癌没有因果关系。
烟草公司可以找出很多理由来辩解,比如说一些人之所以要吸烟,是因为身体里有某部分基因缺陷或者身体缺乏某种物质;而导致肺癌的,是这种基因缺陷或者某种物质的缺乏,而非烟草中的某些物质。从法律上讲,烟草公司的解释很站得住脚,美国的法律又是采用无罪推定原则a,因此,单纯靠发病率高这一件事是无法判定烟草公司有罪的。
这就导致了在历史上很长的时间里,美国各个州政府的检察官在对烟草公司提起诉讼后,经过很长时间的法庭调查和双方的交锋,最后结果都是不了了之。其根本原因是提起诉讼的原告一方(州检察官和受害人)拿不出足够充分的证据,而烟草公司又有足够的钱请到很好的律师为它们进行辩护。
这种情况直到20世纪90年代中期美国历史上的那次世纪大诉讼才得到改变。1994年,密西西比州的总检察长麦克·摩尔(Michael Moore)又一次提起了对菲利普·莫里斯等烟草公司的集体诉讼,随后,美国40多个州加入了这场有史以来最大的诉讼行动。在诉讼开始以前,双方都清楚官司的胜负其实取决于各州的检察官们能否收集到让人信服的证据来证明是吸烟而不是其他原因导致了很多疾病(比如肺癌)更高的发病率。
我们在前面讲了,单纯讲吸烟者比不吸烟者肺癌的发病率高是没有用的,因为得肺癌可能是由其他更直接的因素引起的。要说明吸烟的危害,最好能找到吸烟和得病的因果关系,但是这件事情短时间内又做不到。因此,诉讼方只能退而求其次,他们必须能够提供在(烟草公司所说的)其他因素都被排除的情况下,吸烟者发病的比例依然比不吸烟者要高很多的证据,这件事做起来远比想象的困难。
虽然当时全世界的人口多达60亿,吸烟者的人数也很多,得各种与吸烟有关疾病的人也不少,但是在以移民为主的美国,尤其是大城市里,人们彼此之间基因的差异相对较大,生活习惯和收入状况也千差万别,即使调查了大量吸烟和不吸烟的样本,能够进行比对的、各方面条件都很相似的样本并不多。不过在20世纪90年代的那次世纪大诉讼中,各州的检察长下定决心要打赢官司,而不再是不了了之,为此他们聘请了包括约翰·霍普金斯大学在内的很多大学的顶级专家作为诉讼方的顾问,其中既包括医学家,也包括公共卫生专家。
这些专家们为了收集证据,派下面的工作人员到世界各地,尤其是第三世界国家的农村地区(包括中国的西南地区),去收集对比数据。在这样的地区,由于族群相对单一(可以排除基因等先天的因素),收入和生活习惯相差较小(可以排除后天的因素),有可能找到足够多的可对比的样本,来说明吸烟的危害。
各州检察官们和专家们经过三年多的努力,最终让烟草公司低头了。1997年,烟草公司和各州达成和解,同意赔偿3 655亿美元。在这场历史性胜利的背后,靠的并非是检察官们找到了吸烟对人体有害的因果关系的证据,而依然是采用了统计上强相关性的证据,只是这一次的证据能够让陪审团和法官信服。在这场马拉松式的诉讼过程中,其实人们的思维方式已经从接受因果关系,转到接受强相关性上来了。
如果在法律上都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。
大数据思维与广告:咖啡与信用卡广告更配哦
2003年Google推出了根据网页内容安插广告的AdSense服务,以与那些在网页中随机投放广告的产品竞争。根据我们的直觉,如果在一个和照相机有关的网站(或者)网页中放上照相机的广告,效果应该最好。这其实就是用到了相关性的特点,但是大部分时候,相关性并不是那么直接,不能一眼就看出来。根据大量数据的统计结果,我们发现这样一些广告和内容的搭配效果非常好,很多和我们的想象不大相同,比如:
在电影租赁和收看视频的网站上,放上零食的广告;
在女装网站上,放男装的广告;
在咖啡评论和销售网站上,放信用卡和房贷的广告;
在工具(Hardware)评论网站上,放上快餐的广告;
……
这些搭配,如果没有大量的数据统计作为基础,一般人是想不到的。当然,如果仔细分析有些看似不太相关的搭配,还是能够找到合理的解释,比如电影租赁和视频播放网站与零食广告的搭配,符合人在看视频时喜欢吃零食的习惯。
但是,有些搭配会让人完全摸不到头脑,比如把咖啡和信用卡或者房贷联系起来。不管是能够找到原因的,还是想不出原因的(可能背后存在着我们一时想不到的原因),只要使用了这些相关性,广告的效果就好。当然,在利用相关性时,我们希望是那种可信度比较高的,即数学上所谓的强相关性,而不是随便把一些看似相关的东西扯到一起。
我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。
牛顿和爱因斯坦都是运气很好的人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22