京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如今,包括电视在内的许多媒体,都有“大数据分析”相关的一些栏目,大数据的概念也正在悄悄进入普通老百姓的意识中。我最早接触大数据应用的时候, 被其中的一个重要案例所吸引,那就是谷歌与甲型H1N1流感的传奇故事。我们不得不佩服谷歌公司的眼光,从其诞生之日,谷歌就保存了用户所有的搜索记录, 其他许多公司是不是将这些数据都当做垃圾扔掉了?你以为你在用谷歌搜索呀,其实谷歌也在搜索你!谷歌知道了我们在什么地方、什么时间,对什么东西感兴趣。如果将大量用户的这些东西结合在一起,是不是有巨大的商业价值?现在,谷歌每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成各种有趣的工作,关键在于你的想象力。
谷歌的工程师们很早就发现,某些搜索字词非常有助于了解流感疫情:在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著 上升;而到了夏季,与晒伤有关的搜索又会大幅增加。这是很容易理解的,一般的人没有什么生病的症状,是不会去主动查那些与疾病相关的内容的。于 是,2008年谷歌推出了“谷歌流感趋势”(GFT),这个工具根据汇总的谷歌搜索数据,近乎实时地对全球当前的流感疫情进行估测,但当时并没有引起太多 人的关注。2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标,不会像疾控中心一样要在流感爆发一两周之后才可以做到。这个工具最初运行表现很好,许多国家的研究人员已经证实,其流感样疾病(influenza-like illness, ILI)的估计是准确的。
2013年2月,GFT再次上了头条,但这次不是因为谷歌流感跟踪系统又有了什么新的成就。2013年1月,美国流感发生率达到峰值,谷歌流感趋势 的估计比实际数据高两倍,就是这个不精确性再次引起了媒体的关注。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行 情况。 从2011年8月到2013年9月108周中,谷歌开发工具超估流感流行高达100个周。2012 – 2013与2011 – 2012的季节相比,它高估了流感流行趋势超过50%。在去年冬天的流感季节高峰,谷歌追踪是疾病控制和预防中心(CDC)实际搜集数据的两倍。这些错误 不是随机分布的。例如,前一周的错误会影响预测下一周的错误(时间自相关),错误的方向和大小随季节而变化,这些模式使得GFT高估了相当多的信息,而这 些信息原本是可以通过传统统计方法提取而避免的。
在上周Science上发表的一篇文章“谷歌流感的寓言:大数据分析的陷阱”,就是以这个故事为案例,解释了大数据分析为何会背离事实,并提出了大 数据时代背景下一些值得思考的事。作者认为造成这种结果有两个重要原因,分别是大数据浮夸(Big Data Hubris)和算法变化。
(1)我们经常隐含的假设是,大数据是传统的数据收集和分析的替代品,而不是补充。在其他地方,我们断言大数据有巨大的科学可能性,但是,数据的量并不意味着人们可以忽略测量的基本问题,构造效度和信度以及数据间的依赖关系。其核心挑战是大多数大数据得到了大众的关注,但并没有产生对科学分析来说有效和可靠的数据。
(2)在谷歌为改善其服务中,也改变了数据生成过程。这些调整有可能人为推高了一些搜索,并导致谷歌的高估。例 如,2011年,作为常规搜索算法调整的一部分,谷歌对于许多查询开始采用推荐相关搜索词(包括列出与许多流感相关术语的寻找流感治疗的清单)的方式,在 2012年,为了响应对症状的搜索,谷歌开始提供诊断术语(当用“喉咙痛”搜索时,会列出许多相关的搜索词,见下图;当然不同的语言差别也是很大的)。研 究人员认为,如果是这样,那么谷歌流感趋势不准确性就不是必然的,这并不是谷歌的方法或大数据分析本身存在什么缺陷,可以通过改变搜索引擎的一些策略
另外,当研究人员对在过去几年各种流感相关的查询进行研究时,他们发现两个关键搜索词(流感治疗,以及如何区分流感、受凉或感冒)与谷歌流感趋势结 合更密切,而不是实际的流感,看来这些特殊的搜索似乎是导致不准确问题的大部分原因。从大数据追踪流感是一个特别困难的问题。事实证明,很大一部分与 CDC流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。事实上,谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。
这些问题并不限于GFT。研究搜索或社会媒体能否预测某个未知的参数已经成为一种普遍现象,与传统方法和假设形成了鲜明的对比。尽管这些研究显示了这些数据的价值,但是还远未达到要取代传统的方法或理论的地步。大数据在帮助公共卫生事业方面具有巨大的潜力,但如果没有足够的背景信息,仅仅靠数字可能是会误导人的。谷 歌是一个业务,但也保留着人们的愿望、想法和联系的数据。确定谷歌流感趋势出现问题的确切位置并不容易,因为该公司的搜索算法和数据收集过程是其专有技 术。诚然,对局外人来说很难分析谷歌流感趋势,因为该公司并不愿公开特定搜索词的原始数据,以及将这些搜索词出现频率转化为流感评估的特定算法。上周 Science文章的作者也仍然认为,问题是可以解决的。他们推荐应该将大数据与小数据(即传统的控制数据集)结合起来,创建对人类行为更深入、更准确的表达。
科学是一个是站在巨人肩膀上逐渐累积的过程,需要科学家能够不断地评估他们建立的工作,而知识的积累需要数据形式的燃料。相关研究者网络总是想提高 大数据项目的价值,并从这些类型的数据中挤出更多的可操作性的信息。最初GFT是希望产生一个能准确反映当前流行传染病可能,这样可早日采取措施进行生命 救治的干预。从根本上讲这是正确的,所有的分析表明,这确实是有价值的信息提取。另一个值得重视的问题是数据的源头,不管是私营企业还是社交媒体都可能存 在有意无意地操纵数据的问题,因为他们总是要确保与其产品的相关性或赢得广告收入。对各个流感的分析表明,最好的结果来自两个来源的信息和技术的结合。取代谈论“大数据革命”的应该是“全数据革命”(all data revolution),应该用全新的技术和方法对各种问题进行更多更好的分析。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈、 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-12在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07