登录
首页大数据时代如何清晰的理解Z-Score这种数据标准化的处理方法?
如何清晰的理解Z-Score这种数据标准化的处理方法?
2020-07-10
收藏

Z-Score数据标准化处理的一种常用方法,通过Z-Score,可以将不同量级的数据转化为统一量度的Z-Score分值,并进行比较。

(1)Z-score定义

根据图可以看出,Z-score的数据分布满足“正态分布”(N(0.1)),而“正态分布”又被称为“Z-分布”,所以该方法被称为“Z-score”。

(2)Z-score公式

Z-score的计算公式如下:

总体数据的均值(μ)、总体数据的标准差(σ)、个体的观测值(x)

(3)Z-score优缺点

Z-score最大优点就是计算简单,使用起来比较方便;当数据分布非常凌乱,无法进行最大、最小值的判断时,用Z-score可以实现数据的规范化处理。

Z-score缺点为,在一定程度生对数据分布有要求,并且Z-score的结果通常都是用来比较,实际意义比较小。

(4)Z-Score计算方法


# define dataset

data_A <- rnorm(100. 80. 10)     # randomly create population dataset

data_B <- rnorm(100. 400. 100)   # randomly create population dataset

hist(data_A) #histogram

hist(data_B) #histogram

#Calculate population mean and standard deviation

A_data_std <- sd(data_A)*sqrt((length(data_A)-1)/(length(data_A)))

A_data_mean <- mean(data_A)

B_data_std <- sd(data_B)*sqrt((length(data_B)-1)/(length(data_B)))

B_data_mean <- mean(data_B)

# Provided that A got 92 and B got 610

A_obs <- 92

B_obs <- 610

A_Z_score <-  (A_obs - A_data_mean) / A_data_std

B_Z_score <-  (B_obs - B_data_mean) / B_data_std


数据分析咨询请扫描二维码

客服在线
立即咨询