京公网安备 11010802034615号
经营许可证编号:京B2-20210330
7月9日,美国《连线》杂志近日刊登了一篇关于大数据的评论文章。在短短的几十年里,“技术天才”与社会的关系已经改变:他们从关在屋里的孤独者变成救世主,从反社会者变成社会的最大希望。许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为“大数据”的海量信息。而作者认为,如果缺乏对人们现实生活的实地调查,大数据没有什么意义。
什么样的大数据有意义?除了大数据之外,你还要走出去观察和了解这个世界
关于这一点,我们只要看看 “谷歌流感趋势(Google Flu Trends)”。2008年,当谷歌推出这项服务时,硅谷的许多人将它鼓吹为表明大数据将很快淘汰传统分析方式的一个标志性产品。
“谷歌流感趋势”不仅没有提供流感传播的精确描述,也无法实现大数据鼓吹者的美梦。这是因为,如果没有“厚数据”(丰富的、具有前后关联性的数据,它们只能通过丢开电脑、深入实际生活才能获得),大数据就没有意义。电脑极客们曾经因为不能适应社会生活而被嘲笑,他们被告知应该“多出去走走”。实际上,如果大数据的信徒们希望理解这个他们也在参与塑造的世界,他们真的需要多出去走走。
“谷歌流感趋势”的目的是:找出人们在流感季节常用的搜索词,然后实时跟踪这些搜索词的使用高峰期。这样,谷歌就可以在新流感爆发之前发出警报,而且预警时间要比官方疾病防治中心的预警时间早大约两周。
对很多人来说,“谷歌流感趋势”已经成为大数据的一个典型代表,它表现了大数据的巨大力量。在畅销书《大数据:一场改变生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者维克托?迈尔?舍恩柏格(Viktor Mayer-Sch?nberger)和肯尼斯?库克耶(Kenneth Cukier)宣称,与政府滞后的数据相比,“谷歌流感趋势”是更有用、更及时的流感指示器。
然而,著名的《科学》杂志本月刊登一篇文章告诉我们,自2011年8月以来,“谷歌流感趋势”几乎每周都会高估流感的盛行率。
而在2009年,就在“谷歌流感趋势”推出后不久,它竟然完全没有察觉猪流感的爆发。事实上,人们在流感季节的许多常用搜索词与流感无关,而与流感的通常爆发季节——冬季——密切相关。
许多人争论道,“谷歌流感趋势”的失败缘于大数据的不成熟。这种观点没有切中要害。当然,调整算法、提高数据收集技术将会让下一代大数据工具变得更有效。然而,大数据鼓吹者真正的狂妄之处不在于对一套不成熟的算法过于自信,而在于盲目地相信坐在电脑屏幕前捣鼓一些数字就可以充分理解世界。
大数据仅仅是大量的“薄数据”,它们是通过对人们的活动和行为进行跟踪而获得的。我们最常去的地方,我们在网上搜索的东西,我们每天睡了多久,我们有多少联系人,我们所听的音乐类型等等。这些数据是通过你浏览器中的“cookies”、你戴在手上的FitBit腕带或你手机上的GPS来收集的。这些信息无疑是重要的,但我们不能通过它们来获得对人的完整理解。
为了真正地了解人,我们不久需要大数据,而且需要厚数据。厚数据不仅包括事实,而且包括事实的前后联系。比如说,美国有86%的家庭每周会喝掉6夸脱以上的牛奶,但是她们为什么喝牛奶?他们是怎么喝的?一块包含三种颜色、绣着星星和条纹图案的布,这是薄数据;一面在风中飘扬的美国国旗,这是厚数据。
基于“我们做了什么”,大数据对我们进行简单化的理解;厚数据则试图通过我们与周围世界的联系来理解我们。只有理解人与周围世界的联系,人们才能从整体上认识这个世界,这恰恰也是谷歌、facebook等公司想要做的。
想想硅谷的那些宏伟宣言。谷歌的宗旨是“组织全球信息,使人人皆可访问它们并从中获益。”马克·扎克伯格(Mark Zuckerberg)最近对投资者表示,在全球化和知识经济日益受到重视的当今世界,Facebook致力于一个新的使命:“理解这个世界”。他说:“人们每天在Facebook上发布数十亿条内容和链接。在他们的帮助下,我们通过专门的算法机制为世界上所有事物建立最清晰的模型。”甚至有一些小公司也参与了“理解这个世界”。去年,Jawbone公司的副总裁耶利米?罗宾逊(Jeremiah Robison)说,他们的健康跟踪设备Jawbone UP的目标是“理解(人的)行为变化的科学。”
这些目标的确很大。企业渴望更好地理解社会,这不足为怪。毕竟,了解与客户行为及社会文化相关的信息,这对企业经营来说是必不可少的。而且,在知识经济时代,这些信息本身已经成为一种通货,它们可以换来点击率、浏览量和广告收入。或者更简单地说,它们可以换来权力。在这个过程中,如果谷歌、facebook等公司能不断帮助我们增进对自身的集体知识,它们获得更多权力也是正当的。问题在于,如果它们声称计算机能够组织我们的所有数据,或能够向我们提供关于流感、健康或社会关系等各方面的完整理解,那么,它们从根本上小看了“数据”和“理解”的意义。
如果硅谷的大数据鼓吹者真想“了解世界”,那么他们不仅需要掌握大数据,也需要掌握厚数据。不幸的是,要获得后者,他们需要丢开电脑去实地体验这个世界,而不是仅仅通过谷歌眼镜(或通过facebook的虚拟现实设备)来观察世界。
如果你对一个领域高度熟悉,有能力填补信息空白并想象人们的行为原因,那么“薄数据”将是有用的。换句话说,如果你能够想象并重建人们的行为的发生情境,你所观察到的行为才是有意义的。如果缺乏对行为情境的了解,就不可能推出任何因果关系,也不可能理解人们的行为原因。
这就是为什么研究人员在科学实验中要竭尽全力控制实验室的环境,以创造一个各种影响因素都被考虑在内、彻底的人工场所。不过,真实世界并不是一个实验室。要确保你对陌生世界的情境有所了解,唯一的途径是实地观察并内化和解释正在发生的每一件事。
如果说大数据擅长观察人们的行为,那么它不擅长的就是理解人们对每样事物的背景知识。我是怎么知道每次刷牙时该用多少牙膏的?我是怎么知道何时该进入另一个交通通道的?眨眼是表示“真有趣”还是“我的眼睛进了东西”?这些都涉及人们的内在能力、无意识和背景知识,它们控制着人们的大多数行为。跟周围的事物一样,这些不可见的背景知识只有在观察者主动去看的情况下才能被发现。不过,它们却对每个人的行为有着重要影响。它能够解释事物与人的联系,以及事物对人的意义。
没有哪一个单独的工具能够成为理解人类的超级武器。尽管硅谷有许多出色的发明,不过我们对任何数字技术的期望都应该有个限度。“谷歌流感趋势”真正教给我们的是:不能仅仅问这些数据有多“大”,还要问这些数据有多“厚”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10