几则趣味的统计小故事，你秒懂了吗？ -CDA数据分析师官网

热线电话：13121318867

几则趣味的统计小故事，你秒懂了吗？

2016-01-08

几则趣味的统计小故事，你秒懂了吗？

很多人在学习统计时都认为统计由一系列枯燥的数字、公式和图表组成，十分繁杂无味。然而随着对这门课的深入理解，不知不觉中会逐渐体会到统计的趣味性。这里，挑选几则经典的统计趣味小故事与大家分享，希望大家喜欢。

《红楼梦》作者考证

众所周知，《红楼梦》一书共120回，自从胡适作《红楼梦考证》以来，一般都认为前80回为曹雪芹所写，后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。

能否从统计上做出论证？从1985年开始，复旦大学的李贤平教授带领他的学生作了这项很有意义的工作，他们创造性的想法是将120回看成是120个样本，然后确定与情节无关的虚词出现的次数作为变量，巧妙运用数理统计分析方法，看看哪些回目出自同一人的手笔。

一般认为，每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词（之，其，或，……；呀，吗，咧，罢……；可，便，就……等）出现的次数（频率)，作为《红楼梦》各个回目的数字标志。之所以要抛开情节，是因为在一般情况下，同一情节大家描述的都差不多，但由于个人写作特点和习惯的不同，所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类，果然将120回分成两类，即前80回为一类，后40回为一类，很形象地证实了不是出自同一人的手笔。

之后又进一步分析前80回是否为曹雪芹所写？这时又找了一本曹雪芹的其它著作，做了类似计算，结果证实了用词手法完全相同，断定前80回为曹雪芹一人手笔，是他根据《石头记》写成，中间插入《风月宝鉴》，还有一些别的增加成分。而后40回是否为高鹗写的呢？论证结果推翻了后40回是高鹗一个人所写，而是曹雪芹亲友将其草稿整理而成，宝黛故事为一人所写，贾府衰败情景当为另一人所写等等。

这个论证在红学界轰动很大，李教授他们用多元统计分析方法支持了红学界的观点，使红学界大为赞叹。

出租车肇事

某市发生一起出租车肇事逃逸案件，当时目击证人仅有一位。据证人陈述，肇事车为绿色。该市出租车仅有蓝、绿两种颜色，其中0.5%的出租车为绿色。目前已排除了外市出租车肇事的可能性。

同时，为了验证证人的辨色能力，还专门对其进行了辨色测试。测试结果表明，无论对蓝色还是绿色，证人都能以95%的概率判断正确。即若出租车为蓝色（绿色)，证人100次中能有95次准确地判断出车为蓝色（绿色)。

现在的问题是公安部门是否应该完全相信证人的目击，而把调查完全放在该市的绿色出租车上？

通过统计中贝叶斯公式的计算，我们会发现证人的目击并不能成为调查的依据，仍然需要将调查的重点放在蓝色出租车上。

啤酒与尿布的故事

全球最大的零售商沃尔玛通过分析顾客购物的数据后发现，很多周末购买尿布的顾客同时也购买啤酒。

经过深入观察和研究发现，美国家庭买尿布的多是爸爸。年轻的父亲们下班后要到超市买尿布，同时“顺手牵羊”带走啤酒，好在周末看棒球赛时过把酒瘾。

后来沃尔玛就把尿布和啤酒摆放得很近，从而双双促进了尿布和啤酒的销量。这个故事被公认是数据挖掘的经典范例。

车间供电问题

某车间有200台车床，由于检修、测量、调换刀具等种种原因，即使在生产期间，各台车床还是时常需要停工，若每台车床有60%的时间在开动，而每台车床开动时需要耗电1千瓦，那么应该供给这个车间多少电力才能保证此车间正常生产？

显然，若供给这个车间200 千瓦的电力则此车间便能正常生产。但这样做很不划算，因为每台车床的开工率只有60%，也就是说，平均起来这个车间中同时工作的车床只有120台，供给200千瓦的电力太多了。那么供给120千瓦的电力呢？这又太少了点，因为有时同时工作的车床数会超过120台，则120千瓦的电能就不够用，因而导致一些车床无法工作，那么到底给多少电能才能既保证生产正常又节约电力呢？

事实上供给这个车间141千瓦的电就够了，虽然在这时也可能碰到因电力不足导致部分车床无法运转的情况，但是这种机会非常小，小于千分之一，也就是说在8小时的工作中只有30秒钟会碰到这种情况，这显然影响不大，但是节约出来的59千瓦电能却可以用于很多别的用途。

这里的计算涉及到统计学中的中心极限定理和正态分布。

怎么样，现在你是不是觉得统计学还是蛮有意思的呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；