登录
首页大数据时代偏态数据:何为数据的偏态分布?
偏态数据:何为数据的偏态分布?
2020-06-29
收藏

相信大家在一定有接触过偏态分布这一概念,在统计学偏态分布,是指统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画。在数据预处理过程中,根据频数分布状态不同,有正态分布和偏态分布之分。

正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。

偏态分布是指频数分布不对称,集中位置偏向一侧。偏态分布又可以分为以下几种情况:

1.正偏态分布:集中位置偏向数值小的一侧,或者也可以说频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;

2.负偏态分布:集中位置偏向数值大的一侧,或者也可以说频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。

总结来说就是:

峰左移,右偏,正偏

峰右移,左偏,负偏

正态分布的情况下,众数=中位数= 平均数

偏态分布情况下,相当于在正太分布的基础上增加了很大的异常值,因为异常值对均值影响大,对中位数影响小、对众数无影响,所以:

左偏态分布(负偏态)情况下,平均数<中位数<众数

总体分布呈右偏态状态,存在极大值,平均值向极大值方向偏移

右偏态分布(正偏态)情况下,众数<中位数<平均数

总体分布呈左偏态状态,存在极小值,平均值向极小值方向偏移

数据整体服从正态分布,那样本均值和方差则相互独立。正态分布具有很多好的性质,很多模型假设数据服从正态分布。因此构建模型时要尽量将偏态数据转换为正态分布数据

数据分析咨询请扫描二维码

客服在线
立即咨询