yaolily

2020-11-25   阅读量: 597

Python

Python表合并方法((python pandas join() 、merge()和concat())

扫码加入数据分析学习群

merage#

pandas提供了一个类似于关系数据库的连接(join)操作的方法merage,可以根据一个或多个键将不同DataFrame中的行连接起来,语法如下:

123merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False)

作为一个功能完善、强大的语言,python的pandas库中的merge()支持各种内外连接。

  • left与right:两个不同的DataFrame

  • how:指的是合并(连接)的方式有inner(内连接),left(左外连接),right(右外连接),outer(全外连接);默认为inner

  • on : 指的是用于连接的列索引名称。必须存在右右两个DataFrame对象中,如果没有指定且其他参数也未指定则以两个DataFrame的列名交集做为连接键

  • left_on:左则DataFrame中用作连接键的列名;这个参数中左右列名不相同,但代表的含义相同时非常有用。

  • right_on:右则DataFrame中用作 连接键的列名

  • left_index:使用左则DataFrame中的行索引做为连接键

  • right_index:使用右则DataFrame中的行索引做为连接键

  • sort:默认为True,将合并的数据进行排序。在大多数情况下设置为False可以提高性能

  • suffixes:字符串值组成的元组,用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称,默认为('_x','_y')

  • copy:默认为True,总是将数据复制到数据结构中;大多数情况下设置为False可以提高性能

  • indicator:在 0.17.0中还增加了一个显示合并数据中来源情况;如只来自己于左边(left_only)、两者(both)

sql中的
1234567SELECT *FROM df1INNER JOIN df2 ON df1.key = df2.key;SELECT *FROM df1,df2 where df1.key=df2.key


pandas中用:

1pd.merge(df1, df2, on='key')

然后就是各种外连接了:

1pd.merge(df1, df2, on='key', how='left')


how变成left/right。全链接outer。

join方法提供了一个简便的方法用于将两个DataFrame中的不同的列索引合并成为一个DataFrame。

其中参数的意义与merge方法基本相同,只是join方法默认为左外连接how=left。


还有一种连接方式:concat

concat方法相当于数据库中的全连接(UNION ALL),可以指定按某个轴进行连接,也可以指定连接的方式join(outer,inner 只有这两种)。

与数据库不同的是concat不会去重,要达到去重的效果可以使用drop_duplicates方法


12concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True):


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
49.7595 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子