京公网安备 11010802034615号
经营许可证编号:京B2-20210330
为什么说「大数据」可能被人们过度神化了
如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸。
很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度反映出来,厕所越干净、城市越发达。但直到今天,大数据无法解释这背后的原因:究竟是城市发达了厕所自然就干净,还是厕所干净了也会促进城市的发展。
对于这样「先有鸡还是先有蛋的问题」,还需要大数据加传统民调和小数据的结合才有可能找到答案。
1. 谷歌为何只猜对了一次?
感谢维克托·迈尔·舍恩伯格、马云们孜孜不倦地布道,大数据现在几乎成了全球先进生产力的标志,而且几乎被赋予万能的希望。
在《大数据时代》一书中,舍恩伯格的确总结了相对传统小数据的三大特点:非随机样本,而是全体数据;非精确性,而是混杂性;非因果关系,而是相关关系。
最先证实大数据强大能力的乃是谷歌。
2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文介绍GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国著名的《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:
很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。
调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。
他们建议,应该把大数据与小数据相结合,以「全数据」思维取代「大数据」思维。
2. 了不起的盖洛普
前不久,清华附小六年级学生一篇题为《大数据帮你进一步认识苏轼》的小论文,被冠以大数据之名,这里的大数据其实是不折不扣的小数据,更确切地说只是用量化方式呈现了一个「数据化」的苏东坡。
这只是「炒作大数据」的一个缩影。
事实上,全球拥有真正意义上大数据的公司并不多,而拥有分析大数据能力的公司更是凤毛麟角。斯坦福大学统计学教授Trevor Hastie曾比喻分析大数据的过程,就好比在一大堆干草垛中发现有意义的「针」,而困难之处恰恰在于很多干草看起来也像针。
大数据的不易得和分析的高难度,注定了其进入门槛的高耸。但是,传统民意调查所形成的小数据有着显著的优势:样本的充分代表性、可操作、快速采集分析。
上世纪三十年代,美国数学家乔治·盖洛普通过建立与美国全体选民结构一致的5000个调查样本,成功地预测了罗斯福将赢得1936年总统选举。这位宣称「我能用统计的方法证明上帝的存在」的盖洛普先生开启了现代民意测验的商业化道路。
在大数据鱼龙混杂的浊流中,传统民意调查无疑是一个更靠谱的预测方式。二胎政策出台后,如果想了解人们真实的生育目的,按照大数据全样本的标准几乎无法操作,但是通过传统民调却能够快速了解情况。
南京航空航天大学教授张杰,在2016年初针对10万人的问卷调查显示,近四成人没有生育二胎的打算,已有女孩的家庭生育欲望更强,时间精力、经济状况不佳是国人不敢生二胎的主要原因。
此次二胎意愿调查之所以能回收高达10万份问卷,一则说明受访者对这个问题关注面比较广,二则体现了在线问卷更有利于保护隐私的优点,毕竟与生育相关的话题涉及个人隐私,传统线下一对一问卷调查,会让受访者不太自在。
3. 激活沉默的大多数
如果说大数据只有大机构才有能力获取,如今类似在线民调小工具则赋能普通大众获得便利的调研能力,比大数据更能体现互联网的普惠和平权特征。
中国的网民人数已经超过7亿,互联网的渗透率超过50%,但是网络舆论并不等同于网络民意,一个重要原因是,网民不能代表现实中全体公民,而且活跃网民也不能代表全体网民。
复旦大学传播与国家治理研究中心研究团队在2014年的一份研究报告称:
4. 有民调处有金山
大数据可以帮助我们推导出著名的口红效应(因经济萧条而导致口红热卖)、厕所效应(城市越发达厕所越干净)、以及著名的啤酒与尿布销售故事,但无法给出因果分析,要想从中得到具体的商业建议,还得需要提取样本进行传统调查式的分析。
如果说,大数据分析可以说是一种纵向的推断,是变量间相关关系的推断,那么问卷调查是基于样本推断总体,是一种横向的、由点到面的推断,尤其有助于商家快速了解用户偏好。
大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以挖掘用户需求时,在大数据之外,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望。
相比大数据,人们更容易从小数据中获得更有价值的商业洞察。
腾讯曾联合一家牙膏企业,向三万多人发起了一次过敏口腔健康调查问卷,结果发现,发现口腔问题时,越年轻的受调查者越倾向于等待口腔问题自行缓解,但女性比男性更愿意尝试购买多种口腔护理用品。同时发现,漱口水是牙膏之外最受欢迎的口腔护理产品。
这份调查对于生产口腔护理产品的公司来说,至少提供了三点有价值的市场信息:第一、开展针对年轻消费者的口腔健康意识教育,有助于扩大用户群体;第二、加大针对女性的市场促销活动,有助于进一步刺激销售增长;第三,漱口水的市场空间广大,具备开拓价值。
在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。但无论是传统的小样本民调,还是全样本的大数据分析,事实上面临着一个共同难题:如何提升数据分析能力,如何将数据与人的心理、行为联系起来。这正是预测的神秘和魅力所在。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16