京公网安备 11010802034615号
经营许可证编号:京B2-20210330
三个案例透析大数据思维的核心
逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系。
以下三个案例分别来自药品研发、司法判决与广告投放,从三个不同的角度了解大数据思维的核心。
大数据与药品研发:寻找特效药的方法
比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。
青霉素的发明过程就非常具有代表性。首先,在19世纪中期,奥匈帝国的塞麦尔维斯(Ignaz Philipp Semmelweis,1818—1865)a、法国的巴斯德等人发现微生物细菌会导致很多疾病,因此人们很容易想到杀死细菌就能治好疾病,这就是因果关系。不过,后来弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就要寻找能够从人体内杀菌的物质。
最终在1928年弗莱明发现了青霉素,但是他不知道青霉素杀菌的原理。而牛津大学的科学家钱恩和亚伯拉罕搞清楚了青霉素中的一种物质—青霉烷—能够破坏细菌的细胞壁,才算搞清楚青霉素有效性的原因,到这时青霉素治疗疾病的因果关系才算完全找到,这时已经是1943年,离赛麦尔维斯发现细菌致病已经过去近一个世纪。
两年之后,女科学家多萝西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子结构,并因此获得了诺贝尔奖,这样到了1957年终于可以人工合成青霉素。当然,搞清楚青霉烷的分子结构,有利于人类通过改进它来发明新的抗生素,亚伯拉罕就因此而发明了头孢类抗生素。
在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。
其他新药的研制过程和青霉素很类似,科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。这是一个非常漫长的过程,而且费用非常高。在七八年前,研制一种处方药已经需要花费10年以上的时间,投入10亿美元的科研经费。
如今,时间和费用成本都进一步提高;一些专家,比如斯坦福医学院院长米纳(Lloyd Minor)教授则估计需要20年的时间,20亿美元的投入。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内a赚回20亿美元的成本,就不可能有公司愿意投钱研制新药了。
按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。
如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5 000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。
当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。
大数据思维与司法:为香烟定罪
在过去,由于数据量有限,而且常常不是多维度的,这样的相关性很难找得到,即使偶尔找到了,人们也未必接受,因为这和传统的观念不一样。20世纪90年代中期,在美国和加拿大围绕香烟是否对人体有害这件事情的一系列诉讼上,如何判定吸烟是否有害是这些案子的关键,是采用因果关系判定,还是采用相关性判定,决定了那些诉讼案判决结果。
在今天一般的人看来,吸烟对人体有害,这是板上钉钉的事实。比如美国外科协会的一份研究报告显示,吸烟男性肺癌的发病率是不吸烟男性的23倍,女性则是相应的13倍a,这从统计学上讲早已经不是随机事件的偶然性了,而是存在必然的联系。但是,就是这样看似如山的铁证,依然“不足够”以此判定烟草公司就是有罪,因为它们认为吸烟和肺癌没有因果关系。
烟草公司可以找出很多理由来辩解,比如说一些人之所以要吸烟,是因为身体里有某部分基因缺陷或者身体缺乏某种物质;而导致肺癌的,是这种基因缺陷或者某种物质的缺乏,而非烟草中的某些物质。从法律上讲,烟草公司的解释很站得住脚,美国的法律又是采用无罪推定原则a,因此,单纯靠发病率高这一件事是无法判定烟草公司有罪的。
这就导致了在历史上很长的时间里,美国各个州政府的检察官在对烟草公司提起诉讼后,经过很长时间的法庭调查和双方的交锋,最后结果都是不了了之。其根本原因是提起诉讼的原告一方(州检察官和受害人)拿不出足够充分的证据,而烟草公司又有足够的钱请到很好的律师为它们进行辩护。
这种情况直到20世纪90年代中期美国历史上的那次世纪大诉讼才得到改变。1994年,密西西比州的总检察长麦克·摩尔(Michael Moore)又一次提起了对菲利普·莫里斯等烟草公司的集体诉讼,随后,美国40多个州加入了这场有史以来最大的诉讼行动。在诉讼开始以前,双方都清楚官司的胜负其实取决于各州的检察官们能否收集到让人信服的证据来证明是吸烟而不是其他原因导致了很多疾病(比如肺癌)更高的发病率。
我们在前面讲了,单纯讲吸烟者比不吸烟者肺癌的发病率高是没有用的,因为得肺癌可能是由其他更直接的因素引起的。要说明吸烟的危害,最好能找到吸烟和得病的因果关系,但是这件事情短时间内又做不到。因此,诉讼方只能退而求其次,他们必须能够提供在(烟草公司所说的)其他因素都被排除的情况下,吸烟者发病的比例依然比不吸烟者要高很多的证据,这件事做起来远比想象的困难。
虽然当时全世界的人口多达60亿,吸烟者的人数也很多,得各种与吸烟有关疾病的人也不少,但是在以移民为主的美国,尤其是大城市里,人们彼此之间基因的差异相对较大,生活习惯和收入状况也千差万别,即使调查了大量吸烟和不吸烟的样本,能够进行比对的、各方面条件都很相似的样本并不多。不过在20世纪90年代的那次世纪大诉讼中,各州的检察长下定决心要打赢官司,而不再是不了了之,为此他们聘请了包括约翰·霍普金斯大学在内的很多大学的顶级专家作为诉讼方的顾问,其中既包括医学家,也包括公共卫生专家。
这些专家们为了收集证据,派下面的工作人员到世界各地,尤其是第三世界国家的农村地区(包括中国的西南地区),去收集对比数据。在这样的地区,由于族群相对单一(可以排除基因等先天的因素),收入和生活习惯相差较小(可以排除后天的因素),有可能找到足够多的可对比的样本,来说明吸烟的危害。
各州检察官们和专家们经过三年多的努力,最终让烟草公司低头了。1997年,烟草公司和各州达成和解,同意赔偿3 655亿美元。在这场历史性胜利的背后,靠的并非是检察官们找到了吸烟对人体有害的因果关系的证据,而依然是采用了统计上强相关性的证据,只是这一次的证据能够让陪审团和法官信服。在这场马拉松式的诉讼过程中,其实人们的思维方式已经从接受因果关系,转到接受强相关性上来了。
如果在法律上都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。
大数据思维与广告:咖啡与信用卡广告更配哦
2003年Google推出了根据网页内容安插广告的AdSense服务,以与那些在网页中随机投放广告的产品竞争。根据我们的直觉,如果在一个和照相机有关的网站(或者)网页中放上照相机的广告,效果应该最好。这其实就是用到了相关性的特点,但是大部分时候,相关性并不是那么直接,不能一眼就看出来。根据大量数据的统计结果,我们发现这样一些广告和内容的搭配效果非常好,很多和我们的想象不大相同,比如:
在电影租赁和收看视频的网站上,放上零食的广告;
在女装网站上,放男装的广告;
在咖啡评论和销售网站上,放信用卡和房贷的广告;
在工具(Hardware)评论网站上,放上快餐的广告;
……
这些搭配,如果没有大量的数据统计作为基础,一般人是想不到的。当然,如果仔细分析有些看似不太相关的搭配,还是能够找到合理的解释,比如电影租赁和视频播放网站与零食广告的搭配,符合人在看视频时喜欢吃零食的习惯。
但是,有些搭配会让人完全摸不到头脑,比如把咖啡和信用卡或者房贷联系起来。不管是能够找到原因的,还是想不出原因的(可能背后存在着我们一时想不到的原因),只要使用了这些相关性,广告的效果就好。当然,在利用相关性时,我们希望是那种可信度比较高的,即数学上所谓的强相关性,而不是随便把一些看似相关的东西扯到一起。
我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。
牛顿和爱因斯坦都是运气很好的人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01