热线电话:13121318867

登录
2019-04-11 阅读量: 784
python查找重复记录

df.duplicated()返回的是一个布尔型Series(返回值是True或者False),

表示各行是否是重复行,可以在()内添加列名来查找某一列是否有重复值,第一个出现的值为False,后边再出现相同的行为True

完全重复的项目 df.duplicated()  /  某一列重复df.duplicated('列名')

aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]  
index = [0,1,2,3]  
columns=['a','b','c']  
df = pd.DataFrame(data=aa, index=index, columns=columns)  

df.duplicated()

0 False
1 False
2 True
3 False
dtype: bool

df.duplicated('a') 

0 False
1 False
2 True
3 True
dtype: bool

查看重复的数量,返回结果为True都是前面出现过的

volume_summery[volume_summery.duplicated('order_item_id')==True].shape

35.5375
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子