如何清晰的理解Z-Score这种数据标准化的处理方法?
2020-07-10
15753
Z-Score是数据标准化处理的一种常用方法,通过Z-Score,可以将不同量级的数据转化为统一量度的Z-Score分值,并进行比较。
(1)Z-score定义
根据图可以看出,Z-score的数据分布满足“正态分布”(N(0.1)),而“正态分布”又被称为“Z-分布”,所以该方法被称为“Z-score”。
(2)Z-score公式
Z-score的计算公式如下:
总体数据的均值(μ)、总体数据的标准差(σ)、个体的观测值(x)
(3)Z-score优缺点
Z-score最大优点就是计算简单,使用起来比较方便;当数据分布非常凌乱,无法进行最大、最小值的判断时,用Z-score可以实现数据的规范化处理。
Z-score缺点为,在一定程度生对数据分布有要求,并且Z-score的结果通常都是用来比较,实际意义比较小。
(4)Z-Score计算方法
# define dataset
data_A <- rnorm(100. 80. 10) # randomly create population dataset
data_B <- rnorm(100. 400. 100) # randomly create population dataset
hist(data_A) #histogram
hist(data_B) #histogram
#Calculate population mean and standard deviation
A_data_std <- sd(data_A)*sqrt((length(data_A)-1)/(length(data_A)))
A_data_mean <- mean(data_A)
B_data_std <- sd(data_B)*sqrt((length(data_B)-1)/(length(data_B)))
B_data_mean <- mean(data_B)
# Provided that A got 92 and B got 610
A_obs <- 92
B_obs <- 610
A_Z_score <- (A_obs - A_data_mean) / A_data_std
B_Z_score <- (B_obs - B_data_mean) / B_data_std