京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据可以预测 可靠性尚不确定
人类生活需要预测,但可靠性却实在不敢让人恭维,鲜有正确。这有人为因素,也有技术原因。
比如“非样本错误”。假设有一位司机,驾龄30年,出行2万次,只发生过2次轻微的剐蹭事故。中秋节跟家人一起喝了很多酒,那么这位司机能否因为此前驾驶记录良好,就认为这次也不会出事故?显然这是错误的想法。因为2万次的出行记录都是无酒驾记录,这次喝多了,此前的记录已无任何统计学意义。或许觉得这样的低级错误预测专家能够避免才对,但其实不然。由美国引起的2008年全球金融危机,人类也就只有一两位预测到,而其他所有的美国评级机构、白宫智囊团、经济学家无一能预测出。究其原因,就是犯了这种“非样本”的预测错误。当情况有变,一味根据过去的记录做出预测,就只能得到错误的答案。
很多人喜欢投资股市。身处牛市,投资者再外行恐怕也能多少赚点钱,但从牛市进入熊市,证券公司一般都是集体犯错。这更多的是人为因素。证券分析师出现错误判断很正常,但犯错一定要避免只有自己犯错,一起犯错就等于自己没犯错。比如有人分析出股市有一定概率要崩盘,最佳策略却是继续持有。这样股市崩盘了,由于绝大多数同行都不确定何时要崩盘,也都选择持有战略,集体犯错,并不会显出自己水平低。但如果贸然卖掉股票,短期股价却没有跌甚至涨了,就只能表明自己水平不够。
震惊全球的"9·11"恐怖袭击事件让人感觉很突然,其实美国情报机构差点识破这一重大阴谋。2001年8月16日,穆萨维,一名宗教极端主义者被逮捕了。他只进行了飞行培训50个小时,却要求参加波音747客机的模拟训练。这很诡异,因此被人举报。事后看这个事情,信号很清晰,有恐怖分子要用飞机炸大楼。在当时,这个信号却被掩盖在几十万条诸如此类的众多噪声中,并不突出,或许他只是个飞行爱好者呢。有信号,更有噪声,使得预测非常困难。
以上种种因素导致人类预测不甚准确;但还是有办法使得预测更加接近真相,那就是借助贝叶斯定理。这条概率学定理已产生二百多年,是用条件概率推理问题,揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策。比如一位女性的乳房X光片显示阳性,那么她患乳腺癌的概率会是多少?已有的统计数据显示,如果一位女性未患乳腺癌,X光片呈阳性的概率为10%;如果确实患有乳腺癌,X光片阳性概率为75%;因此X光片呈阳性,一般人会认为事情很严重。但如果用贝叶斯定理来分析,她患乳腺癌的概率只有10%,因为40多岁的女性,患乳腺癌概率很低,只有1.4%,也就是说先验概率很低。
大数据时代,虽然信息量爆增,但信号与噪声并存,要做出正确的预测并不比以前容易,甚至更难。《信号与噪声》一书告诉我们,如果以贝叶斯定理为基础,努力了解事情的因果关系,避免一些不该犯的人为或技术错误,预测准确率都会提高很多。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21