如何清晰的理解Z-Score这种数据标准化的处理方法？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何清晰的理解Z-Score这种数据标准化的处理方法？

如何清晰的理解Z-Score这种数据标准化的处理方法？

2020-07-10

Z-Score是数据标准化处理的一种常用方法，通过Z-Score，可以将不同量级的数据转化为统一量度的Z-Score分值，并进行比较。

(1)Z-score定义

根据图可以看出，Z-score的数据分布满足“正态分布”(N(0.1))，而“正态分布”又被称为“Z-分布”，所以该方法被称为“Z-score”。

(2)Z-score公式

Z-score的计算公式如下：

总体数据的均值(μ)、总体数据的标准差(σ)、个体的观测值(x)

(3)Z-score优缺点

Z-score最大优点就是计算简单，使用起来比较方便;当数据分布非常凌乱，无法进行最大、最小值的判断时，用Z-score可以实现数据的规范化处理。

Z-score缺点为，在一定程度生对数据分布有要求，并且Z-score的结果通常都是用来比较，实际意义比较小。

(4)Z-Score计算方法

# define dataset

data_A <- rnorm(100. 80. 10)     # randomly create population dataset

data_B <- rnorm(100. 400. 100)   # randomly create population dataset

hist(data_A) #histogram

hist(data_B) #histogram

#Calculate population mean and standard deviation

A_data_std <- sd(data_A)*sqrt((length(data_A)-1)/(length(data_A)))

A_data_mean <- mean(data_A)

B_data_std <- sd(data_B)*sqrt((length(data_B)-1)/(length(data_B)))

B_data_mean <- mean(data_B)

# Provided that A got 92 and B got 610

A_obs <- 92

B_obs <- 610

A_Z_score <-  (A_obs - A_data_mean) / A_data_std

B_Z_score <-  (B_obs - B_data_mean) / B_data_std

想深入学习统计学知识，为数据分析筑牢根基？那快来看看统计学极简入门课程！