pandas如何合并相同引索行？-CDA数据分析师官网

热线电话：13121318867

pandas如何合并相同引索行？

2023-05-12

Pandas是Python编程语言中最流行的数据分析工具之一，它提供了丰富的数据结构和工具，使得数据处理变得更加容易和高效。在Pandas中，数据通常存储在DataFrame和Series对象中，而合并具有相同索引的行通常是我们在数据分析过程中经常需要执行的任务之一。

本文将介绍如何使用Pandas合并具有相同索引的行，并提供一些示例来说明如何实现这个任务。我们将从简单的情况开始介绍，然后逐步深入，直到涵盖一些较为复杂的情况。

什么是索引？

在介绍如何合并具有相同索引的行之前，先让我们回顾一下什么是索引。在Pandas中，每个DataFrame和Series都有一个索引，它位于每行的左侧。索引可以是数值、日期、字符串等类型，它们有助于标识数据中的每行。如果没有指定索引，Pandas会默认使用整数作为索引。

如何合并具有相同索引的行？

当你需要合并具有相同索引的行时，你可以使用Pandas中的merge()方法。merge()方法将两个DataFrame对象连接在一起，并根据指定的列或索引进行匹配。例如，假设我们有两个DataFrame对象df1和df2，它们具有相同的索引，我们可以使用以下代码将它们合并：

merged_df = pd.merge(df1, df2, on='index')

在上面这个例子中，我们使用了on参数来指定合并的列名，它必须是两个DataFrame对象共同拥有的列或索引。在本例中，我们使用了'index'作为合并的列名，因为df1和df2都具有相同的索引。

除了使用on参数之外，还可以使用left_index和right_index参数来指定左、右DataFrame对象的索引作为合并的列。例如，假设我们想要以df1和df2的索引进行合并：

merged_df = pd.merge(df1, df2, left_index=True, right_index=True)

在这个例子中，我们使用了left_index和right_index参数来指定左、右DataFrame对象的索引作为合并的列。这意味着当左、右DataFrame对象的索引匹配时，它们将被合并成一行。

示例

为了更好地理解如何合并具有相同索引的行，让我们看一些示例。

示例1：简单合并

假设我们有以下两个DataFrame对象df1和df2：

import pandas as pd
 
data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df1 = pd.DataFrame(data1, index=['a', 'b', 'c'])
 
data2 = {'A': [7, 8, 9], 'B': [10, 11, 12]}
df2 = pd.DataFrame(data2, index=['a', 'b', 'c'])

这些DataFrame对象都具有相同的索引，现在我们使用merge()方法将它们合并：

merged_df = pd.merge(df1, df2, on='index')
print(merged_df)

输出：

   A_x  B_x  A_y  B_y
0    1    4    7   10
1    2    5    8   11
2    3    6    9   12

合并后的DataFrame对象包含了两个原始DataFrame对象中的所有列，并将它们按索引值进行匹配。

示例2：合并多个DataFrame对象

当你需要合并多个具有相同索引的DataFrame对象时，可以使用concat()方法。例如，假设我们有以下三个DataFrame

对象df1、df2和df3：

import pandas as pd
 
data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df1 = pd.DataFrame(data1, index=['a', 'b', 'c'])
 
data2 = {'A': [7, 8, 9], 'B': [10, 11, 12]}
df2 = pd.DataFrame(data2, index=['a', 'b', 'c'])
 
data3 = {'A': [13, 14, 15], 'B': [16, 17, 18]}
df3 = pd.DataFrame(data3, index=['a', 'b', 'c'])

现在我们使用concat()方法将它们合并成一个DataFrame对象：

merged_df = pd.concat([df1, df2, df3], axis=1)
print(merged_df)

输出：

   A  B  A  B   A   B
a  1  4  7  10  13  16
b  2  5  8  11  14  17
c  3  6  9  12  15  18

在这个例子中，我们使用了concat()方法将三个DataFrame对象沿着列方向(axis=1)进行合并。由于这些DataFrame对象都具有相同的索引，因此它们被正确地匹配到一起。

示例3：合并非唯一索引

当你需要合并具有非唯一索引的行时，可以使用merge()方法的how参数来指定如何匹配行。how参数可以取以下四个值之一：'inner'、'outer'、'left'和'right'。

'inner'：只保留两个DataFrame对象中都有的行。
'outer'：保留两个DataFrame对象中所有的行，并使用NaN填充缺失值。
'left'：保留左DataFrame对象中的所有行，并使用NaN填充缺失值。
'right'：保留右DataFrame对象中的所有行，并使用NaN填充缺失值。

例如，假设我们有以下两个DataFrame对象df1和df2：

import pandas as pd
 
data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df1 = pd.DataFrame(data1, index=['a', 'b', 'c'])
 
data2 = {'A': [7, 8, 9], 'B': [10, 11, 12]}
df2 = pd.DataFrame(data2, index=['c', 'd', 'e'])

这些DataFrame对象具有非唯一索引，现在我们使用merge()方法将它们合并：

merged_df = pd.merge(df1, df2, on='index', how='outer')
print(merged_df)

输出：

     A_x  B_x  A_y    B_y
a    1.0  4.0  NaN    NaN
b    2.0  5.0  NaN    NaN
c    3.0  6.0  7.0   10.0
d    NaN  NaN  8.0   11.0
e    NaN  NaN  9.0   12.0

在这个例子中，我们使用了how参数来指定了'outer'模式，这意味着合并后的DataFrame对象将包含两个原始DataFrame对象中的所有行，并使用NaN填充缺失值。