京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据世界里的谎言与事实
这位先生,您好,您听过大数据么?
不不不,不是锯大树的那个锯...是很大的数据,特别大,是今年最流行的,人人都在谈的先进技术——您只要用了我们的大数据分析方案,保证您的企业盈利得到前所未有的增长。
嗯?怎么用?那别提有多简单了,您看,不就是很大量的数据嘛,我这里有特别多,可以先拨一点给您用用。
有多大的量?嗯,您看,太多了您也用不着——这样,我这里一口气给您两千条,您也是个爽快人,就一口价,五百,都在这个U盘里了。
诶?什么?这个U盘就值10块钱?不不不,这里可是有价值连城的数据, 现在这个数据驱动的时代,数据就是财产,就是金钱啊 !
这样,我盼着您以后还要和我们多合作来着,就二百五,给您打个对折,您觉得好我们可以继续合作……
什么?你说我才是二百五?
欸欸!我们谈生意你怎么动起手来了?别打人啊你?
……
02
据说是著名的产品经理圣经《Don't make me think》(别让我思考)里有这样一个有意思的场景:
“一次宗教辩论”
产品经理,技术经理和市场销售在一起为了一个产品的功能开会。对于功能A,产品经理觉得很有必要做,他想问问技术和销售的看法。
技术方面认为功能A的开发难度与回报率不成正比,因此强烈反对此功能。销售方面却认为功能A的反响也许会不错,至少比现存的功能B要受到客户欢迎,却也没有办法拿出切实的证据,比如到底有多少用户希望有这样一个新功能。
由于技术是开发的主要实现者,无法说服技术,于是关于这个功能的谈判不欢而散,这又是一次“无效的会议”。
试想一下两种不同的说法:
1.因为在街上许多人都对我很友善,因此我认为大多数人都喜欢我。
2.根据在街上随机抽样10000人的结果显示,里面的8000个人表达了对我的喜欢,因此我认为大多数人都喜欢我。
哪一个更有说服力呢?抛开随机抽样的科学性和偶然性不谈,显然第二个说法更有说服力, 因为比起第一个“感觉上”的说法,至少它提供了一定的“证据”。
再想想最开始书中的那个例子,如果销售能够提供有力的数据证据证明这个功能受欢迎,或者技术能够证明开发这个功能得不偿失,这个会议就很容易达成有效的结果。
数据思维,也可以说是量化思维,它的核心在于“以数据为证据”。数据思维,实际上就是把数据作为事实的一种,作为思维决策的依据。
所以什么是数据时代思维的核心呢?
现在对于各种机器学习和人工智能铺天盖地的宣传,有可能会给人一个错误的印象:制造一个机器或程序,集成一堆牛逼的算法,给它一堆大数据,它就能回答你与这些数据有关的有的没的的问题。
就好像是存在一个万能的黑箱,你输入一堆关于自己的生辰八字,住址户籍,身高体重等等信息,然后你问它:
“万能的数据之神呀,你觉得我怎样才能让我走上人生巅峰,让思聪都要叫我爸爸呢?”
醒醒吧孩子,你需要被这个世界温柔以待...
03
回想我们之前说的,数据是一种“事实”或者“证据”。 有一些“事实”和“证据”很直接,不需要复杂的判断你就能给出结果:
汤姆与杰瑞
比如作为一只老鼠,它知道奶酪好,猫坏,如果有奶酪出现就可以吃,有猫出现就要跑。这里”奶酪出现”和“猫出现”都是事实,根据这个事实,老鼠就可以进行简单的判断。
有些时候,数据的片段能够作为“事实”,很轻易构成完整的逻辑链:
比如聊天系统显示,你一直和一个女生沟通很频繁,每天有超过200条聊天数据,最近这个数据突然上升到300;你的搜索记录显示你频繁搜索“第一次见面“这个关键词;淘宝的交易记录还显示你买了一些安全类产品,就在后天寄到。
综上所述,我能90%地肯定,你最近要和一个暧昧已久的妹子见面了。
你懂的
怎么样?要是你把这些事情和我说一遍,我也八九不离十能猜到你最近要和一个暧昧已久的妹子见面。然而在这个例子里,你并没有告诉我你要做这些事儿, 只是你的行为被转化成了数据,成为了我做推断的事实 。
知道为什么你的网页左右两边时常出现你想要买的东西的广告了吗?如这个例子一样,你平时在网页上点点点,搜索引擎框里搜搜搜的这些行为,都被转化成了数据,从而出卖了你的想法。
有一个著名的案例叫“Target超市比父母更早知道你的女儿怀孕”。这个案例讲的是因为女儿在Tareget超市中购买的物品的数据被经过分析,得出了女儿大概在什么时候怀孕,从而提前开始向家里寄广告。这导致一开始父母都不知道为什么,后来才恍然大悟。
数据时代的一个重大变化就在于: 那些平日里被我们认为没有意义的举动或者瞬间,实际上都被事无巨细地转化成数据,保留成事实,从而用来有效地推断你的行为。
04
当零零散散的数据被记录下来,最终构成一个庞大的集合, 比起之前那个脉络清晰的个人分析,你发现想要从这个集合中获取有价值的特征信息变难了。
举个例子,在一个庞大的数据系统中,记录了每个人的相关身份信息以及信用违约记录,这个数据系统里有1000万条数据,虽然还远远称不上“大数据”,然而早已超出了人力能够观察承受的范围。
这个时候,我们就需要利用一些数据分析的技术——你所听到的统计分析,神经网络,等等等等,都属于这样一个范畴。在此本狗不深究分析的技术细节,但想要高度概括地表达一下:
所有的技术,都是用来辅助你表达对于数据的观点,如同我们通过观察现象,从而表达对事实的观点一样。
数数,是人类最早掌握的关于统计的,最简单的技巧,光用这一点,人们就已经开始利用观察到的数据证明事实。
比如著名的“世界上没有黑天鹅”的例子:相比于见到黑天鹅的人,见到白天鹅的人实在是太多了,因此人们利用“数数”,将这样一个数据组成一个集合,作为说服人的依据——我已经遇到了9999个见到白天鹅的人,没有人见到黑天鹅,因此下一只见到的天鹅也一定是白的。
黑天鹅
一些更复杂的技巧与方法,能体现出“事实之下的事实”,跨越了“数量”这样给人最直观感觉的事实。平均数,众数,期望等——能体现不同标准下最有可能出现的事实;方差,标准差——体现事实的变动程度。
再往下,人们尝试寻找事实的“分布”,也就是事实出现的一般规律。再深一点,人们开始意识到事情并不是A喜欢B,B喜欢C,那么A喜欢C那么简单,于是出现了事实之间的线性,非线性关系,从数据进行推断,表达观点的过程变得越来越复杂。
但最终说了这么多,我们再回到最开始 —— “数据分析”,是用数据作为事实证据,从而来表达观点的过程。如同一般讲道理,表达观点的思维一样,我们永远需要疑问的两点是:
1.作为事实的数据值得信赖吗? (比如黑天鹅的例子,我们观察到的数据并不是事实的全部,然而事实上人们常常使用错误的数据尝试证明一个看似正确实则错误的观点)
2.表达观点的过程有道理吗? (不管是多高级的方法,支持向量机,AlphaGo用的深度学习网络等等,都是需要有一个符合直觉的解释,就像是我们利用事实讲道理一样)
为此,人们又研究发明了许多方法来证明这两点,从而证明整个利用数据推断的过程都是可以信赖的,最终才能证明得到的结论值得信赖。然而这些都是后话了,有兴趣的读者可以自行搜索交叉验证,P值,置信区间等等关键词。
只要明白这两点,你就能逐渐开始明白大数据世界中的谎言与事实,开始渐渐明白数据思维的乐趣。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05