登录
首页大数据时代python数据清洗中常用的重复值处理方法是什么?
python数据清洗中常用的重复值处理方法是什么?
2020-07-07
收藏

重复值处理python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。

python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重复值删除。

subset     接收string和sequence。表示进行去重的列

keep     接收特定的string。表示去重是保留第几个数据,或者不保留。“first”:保留第一个,“last”:保留最后一个,False:只要有重复都不保留。默认为"first"

inplace     接收boolean。表示是否在原表上进行操作。默认为False

通常情况下,我们进行重复值处理之前需要进行重复值检测。重复值检测使用duplicated方法。

data = pd.read_csv("data.csv",encoding='gbk')

print(data.duplicated().value_counts())

数据分析咨询请扫描二维码

客服在线
立即咨询