重复值处理是python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。
python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重复值删除。
subset 接收string和sequence。表示进行去重的列
keep 接收特定的string。表示去重是保留第几个数据,或者不保留。“first”:保留第一个,“last”:保留最后一个,False:只要有重复都不保留。默认为"first"
inplace 接收boolean。表示是否在原表上进行操作。默认为False
通常情况下,我们进行重复值处理之前需要进行重复值检测。重复值检测使用duplicated方法。
data = pd.read_csv("data.csv",encoding='gbk')
print(data.duplicated().value_counts())
数据分析咨询请扫描二维码