京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据世界里的谎言与事实
这位先生,您好,您听过大数据么?
不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术——您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长。
嗯?怎么用?那别提有多简单了,您看,不就是很大量的数据嘛,我这里有特别多,可以先拨一点给您用用。
有多大的量?嗯,您看,太多了您也用不着——这样,我这里一口气给您两千条,您也是个爽快人,就一口价,五百,都在这个U盘里了。
诶?什么?这个U盘就值10块钱?不不不,这里可是有价值连城的数据, 现在这个数据驱动的时代,数据就是财产,就是金钱啊 !
这样,我盼着您以后还要和我们多合作来着,就二百五,给您打个对折,您觉得好我们可以继续合作……
什么?你说我才是二百五?
欸欸!我们谈生意你怎么动起手来了?别打人啊你?
……
02
据说是著名的产品经理圣经《Don't make me think》(别让我思考)里有这样一个有意思的场景:
“一次宗教辩论”
产品经理,技术经理和市场销售在一起为了一个产品的功能开会。对于功能A,产品经理觉得很有必要做,他想问问技术和销售的看法。
技术方面认为功能A的开发难度与回报率不成正比,因此强烈反对此功能。销售方面却认为功能A的反响也许会不错,至少比现存的功能B要受到客户欢迎,却也没有办法拿出切实的证据,比如到底有多少用户希望有这样一个新功能。
由于技术是开发的主要实现者,无法说服技术,于是关于这个功能的谈判不欢而散,这又是一次“无效的会议”。
试想一下两种不同的说法:
1.因为在街上许多人都对我很友善,因此我认为大多数人都喜欢我。
2.根据在街上随机抽样10000人的结果显示,里面的8000个人表达了对我的喜欢,因此我认为大多数人都喜欢我。
哪一个更有说服力呢?抛开随机抽样的科学性和偶然性不谈,显然第二个说法更有说服力, 因为比起第一个“感觉上”的说法,至少它提供了一定的“证据”。
再想想最开始书中的那个例子,如果销售能够提供有力的数据证据证明这个功能受欢迎,或者技术能够证明开发这个功能得不偿失,这个会议就很容易达成有效的结果。
数据思维,也可以说是量化思维,它的核心在于“以数据为证据”。数据思维,实际上就是把数据作为事实的一种,作为思维决策的依据。
所以什么是数据时代思维的核心呢?
现在对于各种机器学习和人工智能铺天盖地的宣传,有可能会给人一个错误的印象:制造一个机器或程序,集成一堆牛逼的算法,给它一堆大数据,它就能回答你与这些数据有关的有的没的的问题。
就好像是存在一个万能的黑箱,你输入一堆关于自己的生辰八字,住址户籍,身高体重等等信息,然后你问它:
“万能的数据之神呀,你觉得我怎样才能让我走上人生巅峰,让思聪都要叫我爸爸呢?”
醒醒吧孩子,你需要被这个世界温柔以待...
03
回想我们之前说的,数据是一种“事实”或者“证据”。 有一些“事实”和“证据”很直接,不需要复杂的判断你就能给出结果:
汤姆与杰瑞
比如作为一只老鼠,它知道奶酪好,猫坏,如果有奶酪出现就可以吃,有猫出现就要跑。这里”奶酪出现”和“猫出现”都是事实,根据这个事实,老鼠就可以进行简单的判断。
有些时候,数据的片段能够作为“事实”,很轻易构成完整的逻辑链:
比如聊天系统显示,你一直和一个女生沟通很频繁,每天有超过200条聊天数据,最近这个数据突然上升到300;你的搜索记录显示你频繁搜索“第一次见面“这个关键词;淘宝的交易记录还显示你买了一些安全类产品,就在后天寄到。
综上所述,我能90%地肯定,你最近要和一个暧昧已久的妹子见面了。
你懂的
怎么样?要是你把这些事情和我说一遍,我也八九不离十能猜到你最近要和一个暧昧已久的妹子见面。然而在这个例子里,你并没有告诉我你要做这些事儿, 只是你的行为被转化成了数据,成为了我做推断的事实 。
知道为什么你的网页左右两边时常出现你想要买的东西的广告了吗?如这个例子一样,你平时在网页上点点点,搜索引擎框里搜搜搜的这些行为,都被转化成了数据,从而出卖了你的想法。
有一个著名的案例叫“Target超市比父母更早知道你的女儿怀孕”。这个案例讲的是因为女儿在Tareget超市中购买的物品的数据被经过分析,得出了女儿大概在什么时候怀孕,从而提前开始向家里寄广告。这导致一开始父母都不知道为什么,后来才恍然大悟。
数据时代的一个重大变化就在于: 那些平日里被我们认为没有意义的举动或者瞬间,实际上都被事无巨细地转化成数据,保留成事实,从而用来有效地推断你的行为。
04
当零零散散的数据被记录下来,最终构成一个庞大的集合, 比起之前那个脉络清晰的个人分析,你发现想要从这个集合中获取有价值的特征信息变难了。
举个例子,在一个庞大的数据系统中,记录了每个人的相关身份信息以及信用违约记录,这个数据系统里有1000万条数据,虽然还远远称不上“大数据”,然而早已超出了人力能够观察承受的范围。
这个时候,我们就需要利用一些数据分析的技术——你所听到的统计分析,神经网络,等等等等,都属于这样一个范畴。在此本狗不深究分析的技术细节,但想要高度概括地表达一下:
所有的技术,都是用来辅助你表达对于数据的观点,如同我们通过观察现象,从而表达对事实的观点一样。
数数,是人类最早掌握的关于统计的,最简单的技巧,光用这一点,人们就已经开始利用观察到的数据证明事实。
比如著名的“世界上没有黑天鹅”的例子:相比于见到黑天鹅的人,见到白天鹅的人实在是太多了,因此人们利用“数数”,将这样一个数据组成一个集合,作为说服人的依据——我已经遇到了9999个见到白天鹅的人,没有人见到黑天鹅,因此下一只见到的天鹅也一定是白的。
黑天鹅
一些更复杂的技巧与方法,能体现出“事实之下的事实”,跨越了“数量”这样给人最直观感觉的事实。平均数,众数,期望等——能体现不同标准下最有可能出现的事实;方差,标准差——体现事实的变动程度。
再往下,人们尝试寻找事实的“分布”,也就是事实出现的一般规律。再深一点,人们开始意识到事情并不是A喜欢B,B喜欢C,那么A喜欢C那么简单,于是出现了事实之间的线性,非线性关系,从数据进行推断,表达观点的过程变得越来越复杂。
但最终说了这么多,我们再回到最开始 —— “数据分析”,是用数据作为事实证据,从而来表达观点的过程。如同一般讲道理,表达观点的思维一样,我们永远需要疑问的两点是:
1.作为事实的数据值得信赖吗? (比如黑天鹅的例子,我们观察到的数据并不是事实的全部,然而事实上人们常常使用错误的数据尝试证明一个看似正确实则错误的观点)
2.表达观点的过程有道理吗? (不管是多高级的方法,支持向量机,AlphaGo用的深度学习网络等等,都是需要有一个符合直觉的解释,就像是我们利用事实讲道理一样)
为此,人们又研究发明了许多方法来证明这两点,从而证明整个利用数据推断的过程都是可以信赖的,最终才能证明得到的结论值得信赖。然而这些都是后话了,有兴趣的读者可以自行搜索交叉验证,P值,置信区间等等关键词。
只要明白这两点,你就能逐渐开始明白大数据世界中的谎言与事实,开始渐渐明白数据思维的乐趣。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27