京公网安备 11010802034615号
经营许可证编号:京B2-20210330
世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。
这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不是想说我们为了自己的目的而刻意隐瞒数据,虽然人们有的时候也有可能会这么做。我只是想强调,人类有可能会在解读数据的时候带有无意识的偏见。
在大数据时代,这是一个巨大的难题。当你看着不同的数据在同一个问题上向你展现完全不同的情况时,你如何找出问题的答案?
无论何时,数据都是可以被操纵的
Pam Baker是《数据占卜者:大数据策略》一书的作者,在书中,她从数据科学的角度来论述这一问题,但是她还是强调,首先你必须问对问题,才能得到正确的答案。
Baker在一封电子邮件中向我解释:“数据是根据其与精确问题的相关性被拉动的。算法包括对于问题尽可能明确的输入和回答方式。”
她说数据科学家有不少工具来做好这项工作,但是错误依然有可能发生。“当然总是有犯错的可能,但是数据科学和数据科学早在大数据出现之前就已经解决了很多的问题。事实上,如果错误的数据点使用的数据和算法是有缺陷的,那么答案就会是错误的或者有缺陷的。”
到目前为止这些都还是有效的,但是我们很清楚数据科学家的局限性。这么多公司中,我好像还没有听过哪家公司表达这样的意思,他们都在讨论数据,但是大部分公司都缺乏经验来理解这样一件事情:数据可以被操纵,给你你想要的答案。
早些时候,我在在波士顿的Gilbane大会上听到一个演讲者说了一大堆类似于,科学家说人们没有装那么多的应用,平均每个人只安装了10个。他同时也表示90%的人不介意收到垃圾短信。不过要知道,他所在的公司是一家专门为短信广告提供解决方案的公司。他分享了一大堆数据,给你提出了一大堆建议,但是如果你真的以这个为依据来设计方案,为你做的应用进行推广,那就真是傻缺了。
这个演讲者接下来展示了一个数据,这个数据告诉我们,每分钟都有15.4万个应用被下载。可是如果每个人只装少于10个应用,那怎么可能会保持在同一时间以那种节奏同时被下载?当你能清楚的认识数据之间的相互矛盾之处,就能理解,这些数据让问题变得不那么清晰。也许那句老谚语比我们想象的更有道理:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”
掌握数据不难,关键是学会数据的分析、判断
而当我们把数据放到普通人手里,而不是像Baker建议的那样交给数据科学家,那结果可能会很糟。尤其是这些试图利用数据贩卖他们的产品或者服务的营销者手中。更糟的是他们可能会试图用错误的信息来描绘他们美妙的市场结论。
Digital Clarity集团总裁Scott Liewehr表示,这样的情况非常危险。他告诉我,市场研究必须下大力气建立有效的调研,否则他们就有可能使用错误的数据得出错误的结论浪费公司资源。“对于市场营销人员来说,这是一个很大的挑战,每个人都可以拿着数据说任何他们想说的故事。”Liewehr告诉我。“如果他们不知道如何进行调研分析,那就有可能会造成一系列错误决定。”
Baker也同意上面的观点。但是她同时也说,商家也可以为数据整理提供帮助,因为他们的市场人员比数据专家更了解市场动态,如果能把这两者结合到一起,那就能够产生更好的结果。“有的时候市场人员和销售人员比数据科学家更知道该问些什么。这也就是为什么我们需要一个由不同的人组成的数据团队。”她说。
但是她同时也说,即便是可靠的人也并非总是能得到正确的信息。“有的时候企业用户会痛苦挣扎,结果却得出了错误的结论,因为他们不懂统计方法,以及其他必要的方法来完成这项工作。
即便你很小心,数据也并总能让你得出正确的结论
上周我做了一篇报道,是关于最流行的企业同步与分享工具的,而这个工具是基于541 Research的研究的。现在这是一家非常有信誉的公司,他们在公开研究成果之前已经运行着两个研究多个月了。我并非想对他们的研究成果进行毁谤,但是在那篇报道中我也怀疑他们是否问对了问题或者问对了人。他们不应该只是简单的看看一般使用率,而是应该仔细的询问企业用户许可和普通用户许可的比例,如果他们这样做,是不是会看到完全不同的结论?发觉数据并非你想像的那么简单,也并非我在这篇文章中所说的研究那么简单。
首先,451 Research的数据发现超过40%的有效报告使用Dropbox,这个比例远远高于其他企业,我报道这一发现的时候都吓了一跳。Box是整个云计算的典范企业,在市场调查中位列第四,受访者中大约有15%的人选择Box,但是这并不一定是整个故事的全貌。
Ilya Fushman是Dropbox企业产品的主管,他上周告诉我,Dropbox已经拥有了10万个商务用户(既有很小的企业,也有比较大的企业。)考虑到Dropbox是2013年4月刚开放这个产品,这个数字真是非常惊人。有趣的是,作为比较,Box告诉我他们拥有3.9万个企业用户,但是数量不能说明所有问题,因为Box拥有一些非常大的用户。
例如,Box的客户中拥有Eli Lilly,丰田,梦工厂,康卡斯特,MD Andersen以及葛兰素史克等巨头,而最近刚刚将30万份企业授权卖给GE。如果你把Schneider Electric的6.5万份许可,以及保洁的4.4万份许可的算上,你一定可以得出跟451 Research对于企业用户完全不同的结论,即便企业的总数量确实不同。
根据记录,我们很难发现Dropbox拥有多少用户,因为他们并不透露这样的数据,但是他们的大企业用户也包括很多品牌公司,比如Hearst,Hyatt,MIT以及新闻集团。而Dropbox也将一些比较小的企业的商标放在了他们的网站上。
Alan Pelz是451 Research的一位分析员,同时也是本研究的一位作者。他表示,他的团队依然在致力于优化方法,而他们现在公布的数据还只是他们长长的市场研究进程的一个开头而已。
“我认为十月份的调查数据像我们告诉我们一些新的事实——首先,Dropbox在企业领域拥有大量拥趸(这并不让任何人感到吃惊,尤其是他们的竞争对手)。这个市场还很不成熟,但是处在一个增长的阶段,而且现在很多的企业并不愿意把他们的数据放到公共云端。这些发展趋势随着时间的发展会变得非常有趣。而这个新的研究所要挖掘的信息就是谁将会真正成长出价值,而且随时间不断变化。而且我们正在为这个新出现的领域和新层面做细分市场研究以及收入模型的研究。”他在给我的电子邮件写道。
数据确实有巨大的价值,但是即便你非常小心,但依然有可能因为数据的歧义以及麻烦而得出错误的答案。因为即便我们拥有所有的数据,但仍然和现实会有偏差。而且你必须要保证你的数据对于特定的问题来说是准确的,而且遵循最佳的数据归纳法。即使这样,也有可能得出完全意想不到的结果。看来,跟随数据得出结论并不是像说的那么简单。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21