Copyright © 2015-2021,
www.cda.cn
All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有
京ICP备11001960号-9
京公网安备 11010802034615号
经营许可证编号:京B2-20210330

联系电话:13321103290 (微信同号)
2020-07-07
重复值处理是python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。
python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重复值删除。
subset 接收string和sequence。表示进行去重的列
keep 接收特定的string。表示去重是保留第几个数据,或者不保留。“first”:保留第一个,“last”:保留最后一个,False:只要有重复都不保留。默认为"first"
inplace 接收boolean。表示是否在原表上进行操作。默认为False
通常情况下,我们进行重复值处理之前需要进行重复值检测。重复值检测使用duplicated方法。
data = pd.read_csv("data.csv",encoding='gbk')
print(data.duplicated().value_counts())
完 谢谢观看
上一篇: 数据湖是什么?它与数据仓库一样吗? ... 下一篇: 假设检验应该遵循什么样的步骤?它的 ...