京公网安备 11010802034615号
经营许可证编号:京B2-20210330
几则趣味的统计小故事,你秒懂了吗?
很多人在学习统计时都认为统计由一系列枯燥的数字、公式和图表组成,十分繁杂无味。然而随着对这门课的深入理解,不知不觉中会逐渐体会到统计的趣味性。这里,挑选几则经典的统计趣味小故事与大家分享,希望大家喜欢。
《红楼梦》作者考证
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。
能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。
之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。
这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。
出租车肇事
某市发生一起出租车肇事逃逸案件,当时目击证人仅有一位。据证人陈述,肇事车为绿色。该市出租车仅有蓝、绿两种颜色,其中0.5%的出租车为绿色。目前已排除了外市出租车肇事的可能性。
同时,为了验证证人的辨色能力,还专门对其进行了辨色测试。测试结果表明,无论对蓝色还是绿色,证人都能以95%的概率判断正确。即若出租车为蓝色(绿色),证人100次中能有95次准确地判断出车为蓝色(绿色)。
现在的问题是公安部门是否应该完全相信证人的目击,而把调查完全放在该市的绿色出租车上?
通过统计中贝叶斯公式的计算,我们会发现证人的目击并不能成为调查的依据,仍然需要将调查的重点放在蓝色出租车上。
啤酒与尿布的故事
全球最大的零售商沃尔玛通过分析顾客购物的数据后发现,很多周末购买尿布的顾客同时也购买啤酒。
经过深入观察和研究发现,美国家庭买尿布的多是爸爸。年轻的父亲们下班后要到超市买尿布,同时“顺手牵羊”带走啤酒,好在周末看棒球赛时过把酒瘾。
后来沃尔玛就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是数据挖掘的经典范例。
车间供电问题
某车间有200台车床,由于检修、测量、调换刀具等种种原因,即使在生产期间,各台车床还是时常需要停工,若每台车床有60%的时间在开动,而每台车床开动时需要耗电1千瓦,那么应该供给这个车间多少电力才能保证此车间正常生产?
显然,若供给这个车间200 千瓦的电力则此车间便能正常生产。但这样做很不划算,因为每台车床的开工率只有60%,也就是说,平均起来这个车间中同时工作的车床只有120台,供给200千瓦的电力太多了。那么供给120千瓦的电力呢?这又太少了点,因为有时同时工作的车床数会超过120台,则120千瓦的电能就不够用,因而导致一些车床无法工作,那么到底给多少电能才能既保证生产正常又节约电力呢?
事实上供给这个车间141千瓦的电就够了,虽然在这时也可能碰到因电力不足导致部分车床无法运转的情况,但是这种机会非常小,小于千分之一,也就是说在8小时的工作中只有30秒钟会碰到这种情况,这显然影响不大,但是节约出来的59千瓦电能却可以用于很多别的用途。
这里的计算涉及到统计学中的中心极限定理和正态分布。
怎么样,现在你是不是觉得统计学还是蛮有意思的呢?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12