京公网安备 11010802034615号
经营许可证编号:京B2-20210330
解读《大数据时代》:大数据时代的神话
地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的《大数据时代》。
我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读。不料周边谈论大数据的人越来越多,谈论《大数据时代》这本书的人也越来越多,似乎不读《大数据时代》,估计连屌丝都做不成了。所以斗胆请来《大数据时代》。一读,果然不懂,许多疑问。
何为大数据?
这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思开口问别人,希望从书中得到答案。遗憾的是,迈尔大叔在书中就根本没有告诉我们什么是大数据,这对像我这样习惯在课堂里死记硬背的学生来说,就产生了轻微的智障:怎么似乎什么都是大数据。可要我记住哪一个却十分困难。
看完此书,我只能回答说大数据就是数据多数据大。可是这个回答似乎有明显的问题。迈尔大叔在书中就举了一个大数据的例子,这个大数据只有“4000”和“两小时”。
在解释大数据时代不需要精准性时,迈尔大叔这样写道:
“互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。”
4000个“赞”或者两小时(120分钟)也是大数据?我开始崩溃了!
我想是不是迈尔大叔可能考虑到我们对过万的数字数不过来所以有意简化,挑选我们能够理解的“大数据”来说明他的论断。
指鹿为马是谓荒唐。可是,如果对马没有定义,那指鹿为马就无所谓了。
呵呵,迈尔大叔还真幽默。
何为大数据时代?
我读西洋人写的书,总是觉得读书时很爽,读完后基本记不住。读《大数据时代》也有同感。很多很多的大数据例子,读完合上书后基本上一个都记不住。不过迈尔大叔可能知道我的这个毛病,所以提纲挈领,总结了大数据时代的三大特征。这就是地球人都知道的大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。
一本书,三句话,一个时代的特征!楚汉河界,泾渭分明,一目了然。
小数据时代是随机样本、精准性和因果关系,大数据时代是全体数据、混杂性和相关关系。
可是我的脑子就是转不过来,没法从迈尔大叔的三个简单扼要的特征总结中悟出大数据时代来。这个看上去忒简单的总结,其实真的很深奥。简直可谓深不可测!
一大堆的问题等着迈尔大叔来回答。
比如说,是不是大数据时代就不要随机取样分析了?小数据时代是否也有所谓的全体数据?比如说30年前互联网未流行前美国银行或保险公司拥有的数据是不是全体数据?怎样定义全体数据?谷歌、百度、FACEBOOK或者腾讯,哪个公司拥有所谓的全体数据?为什么有了全体数据分析就要完全抛弃随机样本分析?如果考虑到随机样本分析会影响到分析结果的精度,不是大数据时代不追求精度吗?
关于大数据时代不要精准性,我怎么也拐不过弯来。你说,大数据时代的老师教学生“2+2或许等于3.9”,公司会计记账错了也可以对老板理直气壮地说“现在是大数据时代了”,甚至到饭店吃饭付账也不要精准了....。.呵呵,这日子还让不让人活啊?!
还有有关因果关系和相关性的问题,这也要命!我一直认为人与猴子的根本区别在于人喜欢问个“为什么?”。原本两个猴子,一个不断好奇地问“为什么日落就要睡觉”,结果大脑不断进化变成了人;另一个只是看到日落就上树睡觉,结果至今还是猴子。现在好了,大数据时代不需要问“为什么”了,岂不苦了我们从猴子变人过程中长期培育起来的好奇心了。
因果关系与相关关系的区别,就是因果关系在相关关系上问了个”为什么“。
流传甚广的有关超市将啤酒与尿布一起卖的大数据例子。说是通过大数据分析发现,人们在买尿布时通常也会买啤酒,于是就将啤酒与尿布陈列在一起卖。
如果你生活在大数据时代,故事到此结束了。
如果你还好奇地想知道为什么人们买尿布时要买啤酒。呵呵,对不起,你和我一样还生活在小数据时代。
我们无疑生活在一个互联网的时代,这是一个充满海量数据的世界。数据的多种形式、数据的多种来源、数据之间的多种复杂的联系,都使我们这个世界变得更加神秘但也更加激动人心。这就是大数据时代。
对大数据时代的探索,犹如当年美国对西部的探险,充满许多传说和神话。《大数据时代》或许可能就是这样一本充满神话与传说的探险记。我们为之心动,但依旧要活在现实的生活中,现实生活中的那些规律依旧适用。
即使是大数据时代,我们依旧需要问”为什么“,我们依旧需要教会孩子“2+2=4”,我们甚至依旧要做随机样本分析。
大数据并没有改变我们现有社会的基本生活逻辑。
大数据时代,平常人,平常心。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22