如果利用pandas处理多列数据条件筛选？-CDA数据分析师官网

热线电话：13121318867

如果利用pandas处理多列数据条件筛选？

2023-04-21

Pandas是Python中一个非常强大的数据处理库，可以用于处理各种数据类型，包括多列数据条件筛选。在实际应用中，我们经常需要从数据集中选择满足特定条件的数据子集。这篇文章将介绍如何使用Pandas进行多列数据条件筛选，并提供一些示例代码。

首先，让我们考虑一个示例数据集。假设我们有一份关于销售数据的Excel表格，其中包含了以下几列数据：销售日期、销售人员、销售地点、销售金额。我们想要从这个数据集中选择出符合以下条件的数据子集：

销售日期为2022年
销售人员为John或Mary
销售地点为New York或Los Angeles
销售金额大于1000美元

接下来，我们将演示如何使用Pandas进行条件筛选。首先，我们需要导入Pandas库并读取Excel表格数据。

import pandas as pd

# 读取Excel表格数据
df = pd.read_excel('sales_data.xlsx')

然后，我们可以通过多个布尔条件对数据集进行筛选。例如，我们可以使用以下代码来选择符合上述条件的数据子集：

# 使用多个布尔条件进行筛选
selected_df = df[(df['销售日期'].dt.year == 2022) &
                 (df['销售人员'].isin(['John', 'Mary'])) &
                 (df['销售地点'].isin(['New York', 'Los Angeles'])) &
                 (df['销售金额'] > 1000)]

# 打印符合条件的数据子集
print(selected_df)

在上面的代码中，我们首先使用dt.year属性从“销售日期”列中提取年份，然后使用isin()方法检查“销售人员”和“销售地点”是否包含特定值。最后，我们使用大于号（>）运算符来比较“销售金额”与1000美元的大小关系。

需要注意的是，在Pandas中，多个布尔条件之间使用逻辑运算符进行连接时，必须使用圆括号将每个条件括起来。

除了使用多个布尔条件外，我们还可以使用Pandas中的query()方法进行条件筛选。例如，以下代码与上面的代码效果相同：

# 使用query()方法进行筛选
selected_df = df.query('销售日期.dt.year == 2022 and '
                       '销售人员 in ["John", "Mary"] and '
                       '销售地点 in ["New York", "Los Angeles"] and '
                       '销售金额 > 1000')

# 打印符合条件的数据子集
print(selected_df)

在上面的代码中，我们使用字符串形式的条件表达式作为query()方法的参数，并使用and、in和大于号（>）等运算符对条件进行连接。

当然，我们也可以将多个条件分开写成多行代码，例如：

# 分别筛选各个条件
condition1 = df['销售日期'].dt.year == 2022
condition2 = df['销售人员'].isin(['John', 'Mary'])
condition3 = df['销售地点'].isin(['New York', 'Los Angeles'])
condition4 = df['销售金额'] > 1000

# 将多个条件进行合并
selected_df = df[condition1 & condition2 & condition3 & condition4]

# 打印符合条件的数据子集
print(selected_df)