大数据世界里的谎言与事实
这位先生,您好,您听过大数据么?
不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术——您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长。
嗯?怎么用?那别提有多简单了,您看,不就是很大量的数据嘛,我这里有特别多,可以先拨一点给您用用。
有多大的量?嗯,您看,太多了您也用不着——这样,我这里一口气给您两千条,您也是个爽快人,就一口价,五百,都在这个U盘里了。
诶?什么?这个U盘就值10块钱?不不不,这里可是有价值连城的数据, 现在这个数据驱动的时代,数据就是财产,就是金钱啊 !
这样,我盼着您以后还要和我们多合作来着,就二百五,给您打个对折,您觉得好我们可以继续合作……
什么?你说我才是二百五?
欸欸!我们谈生意你怎么动起手来了?别打人啊你?
……
02
据说是著名的产品经理圣经《Don't make me think》(别让我思考)里有这样一个有意思的场景:
“一次宗教辩论”
产品经理,技术经理和市场销售在一起为了一个产品的功能开会。对于功能A,产品经理觉得很有必要做,他想问问技术和销售的看法。
技术方面认为功能A的开发难度与回报率不成正比,因此强烈反对此功能。销售方面却认为功能A的反响也许会不错,至少比现存的功能B要受到客户欢迎,却也没有办法拿出切实的证据,比如到底有多少用户希望有这样一个新功能。
由于技术是开发的主要实现者,无法说服技术,于是关于这个功能的谈判不欢而散,这又是一次“无效的会议”。
试想一下两种不同的说法:
1.因为在街上许多人都对我很友善,因此我认为大多数人都喜欢我。
2.根据在街上随机抽样10000人的结果显示,里面的8000个人表达了对我的喜欢,因此我认为大多数人都喜欢我。
哪一个更有说服力呢?抛开随机抽样的科学性和偶然性不谈,显然第二个说法更有说服力, 因为比起第一个“感觉上”的说法,至少它提供了一定的“证据”。
再想想最开始书中的那个例子,如果销售能够提供有力的数据证据证明这个功能受欢迎,或者技术能够证明开发这个功能得不偿失,这个会议就很容易达成有效的结果。
数据思维,也可以说是量化思维,它的核心在于“以数据为证据”。数据思维,实际上就是把数据作为事实的一种,作为思维决策的依据。
所以什么是数据时代思维的核心呢?
现在对于各种机器学习和人工智能铺天盖地的宣传,有可能会给人一个错误的印象:制造一个机器或程序,集成一堆牛逼的算法,给它一堆大数据,它就能回答你与这些数据有关的有的没的的问题。
就好像是存在一个万能的黑箱,你输入一堆关于自己的生辰八字,住址户籍,身高体重等等信息,然后你问它:
“万能的数据之神呀,你觉得我怎样才能让我走上人生巅峰,让思聪都要叫我爸爸呢?”
醒醒吧孩子,你需要被这个世界温柔以待...
03
回想我们之前说的,数据是一种“事实”或者“证据”。 有一些“事实”和“证据”很直接,不需要复杂的判断你就能给出结果:
汤姆与杰瑞
比如作为一只老鼠,它知道奶酪好,猫坏,如果有奶酪出现就可以吃,有猫出现就要跑。这里”奶酪出现”和“猫出现”都是事实,根据这个事实,老鼠就可以进行简单的判断。
有些时候,数据的片段能够作为“事实”,很轻易构成完整的逻辑链:
比如聊天系统显示,你一直和一个女生沟通很频繁,每天有超过200条聊天数据,最近这个数据突然上升到300;你的搜索记录显示你频繁搜索“第一次见面“这个关键词;淘宝的交易记录还显示你买了一些安全类产品,就在后天寄到。
综上所述,我能90%地肯定,你最近要和一个暧昧已久的妹子见面了。
你懂的
怎么样?要是你把这些事情和我说一遍,我也八九不离十能猜到你最近要和一个暧昧已久的妹子见面。然而在这个例子里,你并没有告诉我你要做这些事儿, 只是你的行为被转化成了数据,成为了我做推断的事实 。
知道为什么你的网页左右两边时常出现你想要买的东西的广告了吗?如这个例子一样,你平时在网页上点点点,搜索引擎框里搜搜搜的这些行为,都被转化成了数据,从而出卖了你的想法。
有一个著名的案例叫“Target超市比父母更早知道你的女儿怀孕”。这个案例讲的是因为女儿在Tareget超市中购买的物品的数据被经过分析,得出了女儿大概在什么时候怀孕,从而提前开始向家里寄广告。这导致一开始父母都不知道为什么,后来才恍然大悟。
数据时代的一个重大变化就在于: 那些平日里被我们认为没有意义的举动或者瞬间,实际上都被事无巨细地转化成数据,保留成事实,从而用来有效地推断你的行为。
04
当零零散散的数据被记录下来,最终构成一个庞大的集合, 比起之前那个脉络清晰的个人分析,你发现想要从这个集合中获取有价值的特征信息变难了。
举个例子,在一个庞大的数据系统中,记录了每个人的相关身份信息以及信用违约记录,这个数据系统里有1000万条数据,虽然还远远称不上“大数据”,然而早已超出了人力能够观察承受的范围。
这个时候,我们就需要利用一些数据分析的技术——你所听到的统计分析,神经网络,等等等等,都属于这样一个范畴。在此本狗不深究分析的技术细节,但想要高度概括地表达一下:
所有的技术,都是用来辅助你表达对于数据的观点,如同我们通过观察现象,从而表达对事实的观点一样。
数数,是人类最早掌握的关于统计的,最简单的技巧,光用这一点,人们就已经开始利用观察到的数据证明事实。
比如著名的“世界上没有黑天鹅”的例子:相比于见到黑天鹅的人,见到白天鹅的人实在是太多了,因此人们利用“数数”,将这样一个数据组成一个集合,作为说服人的依据——我已经遇到了9999个见到白天鹅的人,没有人见到黑天鹅,因此下一只见到的天鹅也一定是白的。
黑天鹅
一些更复杂的技巧与方法,能体现出“事实之下的事实”,跨越了“数量”这样给人最直观感觉的事实。平均数,众数,期望等——能体现不同标准下最有可能出现的事实;方差,标准差——体现事实的变动程度。
再往下,人们尝试寻找事实的“分布”,也就是事实出现的一般规律。再深一点,人们开始意识到事情并不是A喜欢B,B喜欢C,那么A喜欢C那么简单,于是出现了事实之间的线性,非线性关系,从数据进行推断,表达观点的过程变得越来越复杂。
但最终说了这么多,我们再回到最开始 —— “数据分析”,是用数据作为事实证据,从而来表达观点的过程。如同一般讲道理,表达观点的思维一样,我们永远需要疑问的两点是:
1.作为事实的数据值得信赖吗? (比如黑天鹅的例子,我们观察到的数据并不是事实的全部,然而事实上人们常常使用错误的数据尝试证明一个看似正确实则错误的观点)
2.表达观点的过程有道理吗? (不管是多高级的方法,支持向量机,AlphaGo用的深度学习网络等等,都是需要有一个符合直觉的解释,就像是我们利用事实讲道理一样)
为此,人们又研究发明了许多方法来证明这两点,从而证明整个利用数据推断的过程都是可以信赖的,最终才能证明得到的结论值得信赖。然而这些都是后话了,有兴趣的读者可以自行搜索交叉验证,P值,置信区间等等关键词。
只要明白这两点,你就能逐渐开始明白大数据世界中的谎言与事实,开始渐渐明白数据思维的乐趣。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03