R语言对重复值的清洗:
重复值清洗会使用duplicated函数
使用duplicated函数查看数据表中的用户ID列是否存在重复值,duplicated函数返回该字段每一行的检查结果,重复的标记为TURE,不重复的值标记为FALSE。在下面的结果中可以看到数据表的用户ID列最后四个值为重复值。
首先:查看列是否有重复
#查看特定列是否有重复
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE
对于包含重复值的数据表,可以使用unique函数提取数据表中的唯一值,并用唯一值覆盖原有数据,达到去除重复值的目的。下面的代码提取了loan数据表中的唯一值,并重新赋给loan数据表。此时loan数据表中就不包含重复值了。
其次:删除重复值:
#删除重复值,返回唯一值列表
loan=unique(loan)
去除完重复值后,再次使用duplicated函数查看,返回的结果中都为FALSE,已经没有重复值了。
1
2#查看重复值
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
以上是对重复值处理的方法!








暂无数据