pandas的merge操作，像数据库一样尽情join-CDA数据分析师官网

热线电话：13121318867

pandas的merge操作，像数据库一样尽情join

2020-08-18

作者：梁唐

来源：早起Python

今天是我们一起来聊聊pandas中dataframe的合并。

常见的数据合并操作主要有两种，第一种是我们新生成了新的特征，想要把它和旧的特征合并在一起。第二种是我们新获取了一份数据集，想要扩充旧的数据集。这两种合并操作在我们日常的工作当中非常寻常，那么究竟应该怎么操作呢？让我们一个一个来看。

merge

首先我们来看dataframe当中的merge操作，merge操作类似于数据库当中两张表的join，可以通过一个或者多个key将多个dataframe链接起来。

我们首先来创建两个dataframe数据：

df1 = pd.DataFrame({'id': [1, 2, 3, 3, 5, 7, 6], 'age': range(7)})

df2 = pd.DataFrame({'id': [1, 2, 4, 4, 5, 6, 7], 'score': range(7)})

我们可以看到这两个dataframe当中都有id这个字段，如果我们想要将它们根据id关联起来，我们可以用pd.merge函数完成：

这里虽然我们没有指定根据哪一列完成关联，但是pandas会自动寻找两个dataframe的名称相同列来进行关联。一般情况下我们不这么干，还是推荐大家指定列名。指定列名很简单，我们只需要传入on这个参数即可。

如果需要根据多列关联，我们也可以传入一个数组。但假如两个dataframe当中的列名不一致怎么办，比如这两个dataframe当中的一列叫做id，一列叫做number，该怎么完成join呢？

df1 = pd.DataFrame({'id': [1, 2, 3, 3, 5, 7, 6], 'age': range(7)})

df2 = pd.DataFrame({'number': [1, 2, 4, 4, 5, 6, 7], 'score': range(7)})

这个时候就需要用left_on指定左表用来join的列名，用right_on指定右表用来join的列名。

谈到join，不得不提另外一个问题就是join的方式。我们都知道在数据库的表join操作当中我们通常的join方式有4种。分别是innner join，left join，right join和outer join。我们观察一下上面的结果会发现关联之后的数据条数变少了，这是因为默认的方式是inner join，也就是两张表当中都存在的数据才会被保留。如果是left join，那边左边当中所有的数据都会保留，关联不上的列置为None，同理，如果是right join，则右表全部保留，outer join则会全部保留。

join的方式选择通过how这个参数控制，比如如果我们想要左表保留，我们传入how='left'即可。

除此之外，merge操作还有一些其他的参数，由于篇幅限制我们不一一介绍了，大家感兴趣可以去查阅相关文档。

数据合并

另外一个常用的操作叫做数据合并，为了和merge操作区分，我用了中文。虽然同样是合并，但是它的逻辑和merge是不同的。对于merge来说，我们需要关联的key，是通过数据关联上之后再合并的。而合并操作是直接的合并，行对行合并或者是列对列合并，是忽视数据的合并。

这个合并操作我们之前在numpy的介绍当中曾经也提到过，我们这里简单回顾一下。

首先我们先创建一个numpy的数组：

import numpy as np
arr = np.random.rand(3, 4)

之后呢，我们可以用concatenate函数把这个数组横着拼或者是竖着拼，默认是竖着拼：

我们也可以通过axis这个参数让它变成横着拼：

对于dataframe同样也有这样的操作，不过换了一个名字叫做concat。如果我们不指定的话会竖着拼接：

竖着拼接的时候会按照列进行对齐，如果列名对不上就会填充NaN。

通过axis参数我们可以让它横向拼接：

以上就是concat的基本用法了，除了基本用法之外，concat还有一些其他的应用，比如说处理index层次索引等等。只是这些用法相对来说比较小众，使用频率不高，就不赘述了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

DataFrame numpy pandas 特征字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇第十二届CDA认证考试报告重磅发布！

下一篇终于有人把AI、BI分析、大数据、数据科学讲明白了

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

pandas的merge操作，像数据库一样尽情join

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

如何考取数据分析师证书：以 CDA 为例 ...

CDA 精益业务数据分析：驱动企业高效决策的核心引擎 ...

【CDA干货】MySQL 无外键关联表的 JOIN 实战：数据 ...

【CDA干货】Python Pandas：数据科学的瑞士军刀 ...

【CDA干货】用 SQL 生成逆向回滚 SQL：数据操作的 ...

【CDA干货】t检验与Wilcoxon检验的选择：何时用t.te ...

AI 浪潮下的生存与进阶: CDA数据分析师——开启新时 ...

【CDA干货】LSTM 模型输入长度选择技巧：提升序列建 ...

CDA 数据分析师报考条件详解与准备指南 ...

【CDA干货】数据透视表中两列相乘合计的实用指南 ...

CDA 认证考试大纲 2025 重磅更新：一二级考纲变化汇 ...

BI 大数据分析师：连接数据与业务的价值转化者 ...

SQL 在预测分析中的应用：从数据查询到趋势预判 ...

数据查询结束后：分析师的收尾工作与价值深化 ...

CDA 数据分析师考试：从报考到取证的全攻略 ...

【CDA干货】单样本趋势性检验：捕捉数据背后的时间 ...

year_month数据类型：时间维度的精准切片 ...

CDA 备考干货：Python 在数据分析中的核心应用与实 ...

【CDA干货】SPSS 中的 Mann-Kendall 检验：数据趋势 ...

备战 CDA 数据分析师考试：需要多久？如何规划？ ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载