登录
首页精彩阅读产品运营数据分析:数据分组统计公式
产品运营数据分析:数据分组统计公式
2016-01-23
收藏

产品运营数据分析:数据分组统计公式

第一步确定组数

一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。

如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。

可以按美国人斯特杰斯(Sturges)提出的经验公式来确定组数K:

数据分析

K:组数
n: 数据个数
ln(n):㏑即自然对数,以e为底数的对数通常用于㏑;以e为底数, e约等于2.71828…….

数据分析师为方便大家进行数据分组,这里计算了从10个数据到1千万条数据的分组个数,供大家参考。

需要注意的是,这仅仅是分组理论,在实际的分组中,还需要观察数据,摸清数据分布规律,可以根据统计分析实际情况进行调整,组数过多,也不利于做进一步的统计分析

数据分析

第二步确定组距

确定各组的组距。组距是一个组的上限与下限的差,可根据全部数据的最大值和最小值(即极差)及所分的组数来确定,公式如下:

Excel公式

例如,最大值为100,最小值为30,则组距=(100-30)÷8=8.75 ,可以近似取到10。

第三步 分组

明确两个分组原则:

穷尽原则

使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。

互斥原则

在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。

上面的数据,最大值为100,最小值为30,组距是10,那么分组可能是:最小值——40,41——50,51——60……如此类推。数据分析师培训


数据分析咨询请扫描二维码

客服在线
立即咨询