Copyright © 2015-2021,
www.cda.cn
All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有
京ICP备11001960号-9
京公网安备 11010802034615号
经营许可证编号:京B2-20210330

联系电话:13321103290 (微信同号)
2020-07-10
Z-Score是数据标准化处理的一种常用方法,通过Z-Score,可以将不同量级的数据转化为统一量度的Z-Score分值,并进行比较。
(1)Z-score定义
根据图可以看出,Z-score的数据分布满足“正态分布”(N(0.1)),而“正态分布”又被称为“Z-分布”,所以该方法被称为“Z-score”。
(2)Z-score公式
Z-score的计算公式如下:
总体数据的均值(μ)、总体数据的标准差(σ)、个体的观测值(x)
(3)Z-score优缺点
Z-score最大优点就是计算简单,使用起来比较方便;当数据分布非常凌乱,无法进行最大、最小值的判断时,用Z-score可以实现数据的规范化处理。
Z-score缺点为,在一定程度生对数据分布有要求,并且Z-score的结果通常都是用来比较,实际意义比较小。
(4)Z-Score计算方法
# define dataset data_A <- rnorm(100. 80. 10) # randomly create population dataset data_B <- rnorm(100. 400. 100) # randomly create population dataset hist(data_A) #histogram hist(data_B) #histogram #Calculate population mean and standard deviation A_data_std <- sd(data_A)*sqrt((length(data_A)-1)/(length(data_A))) A_data_mean <- mean(data_A) B_data_std <- sd(data_B)*sqrt((length(data_B)-1)/(length(data_B))) B_data_mean <- mean(data_B) # Provided that A got 92 and B got 610 A_obs <- 92 B_obs <- 610 A_Z_score <- (A_obs - A_data_mean) / A_data_std B_Z_score <- (B_obs - B_data_mean) / B_data_std
完 谢谢观看
上一篇: 关系型数据库与非关系型数据库的不同 ... 下一篇: 机器学习中感知机是什么?如何实现? ...