热线电话：13121318867

3000字详解Pandas数据查询，建议收藏（CDA干货分享）

2021-12-28

作者：俊欣

来源：关于数据分析与可视化

大家好，又是新的一周，也是2021年的最后一周，今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据，希望会对读者朋友有所帮助。

导入数据集和模块

我们先导入pandas模块，并且读取数据，代码如下

import pandas as pd
df = pd.read_csv("netflix_titles.csv")
df.head()

根据文本内容来筛选

首先我们可以根据文本内容直接来筛选，返回的是True如果文本内容是相匹配的，False如果文本内容是不匹配的，代码如下

mask = df['type'].isin(['TV Show'])
mask.head()

output

0 False 1 True 2 True 3 True 4 True Name: type, dtype: bool

然后我们将这个mask作用到整个数据集当中，返回的则是满足与True条件的数据

df[mask].head()

output

当然我们也可以和.loc方法来相结合，只挑选少数的几个指定的列名，代码如下

df.loc[mask, ['title','country','duration']].head()

output

title country duration 1 Blood & Water South Africa 2 Seasons 2 Ganglands NaN 1 Season 3 Jailbirds New Orleans NaN 1 Season 4 Kota Factory India 2 Seasons 5 Midnight Mass NaN 1 Season

当然要是我们所要筛选的文本内容并不仅仅只有1个，就可以这么来操作，代码如下

mask = df['type'].isin(['Movie','TV Show'])

结果返回的是True，要是文本内容全部都匹配，要是出现一个不匹配的现象则返回的是False

根据关键字来筛选

我们可以根据某个关键字来筛选数据，数据集当中的listed-in包含的是每部电影的种类，当然很多电影并不只有一个种类，而是同时涉及到很多个种类，例如某一部电影既有“科幻”元素，也有“爱情”元素同时还包含了部分“动作片”的元素。

我们按照某个关键字来筛选，例如筛选出包含了“horror”这个关键字的影片，代码如下

mask = df['listed_in'].str.contains('horror', case=False, na=False)

其中的case=False表明的是忽略字母的大小写问题，na=False表明的是对于缺失值返回的是False，

df[mask].head()

output

而要是文本数据当中包含了一些特殊符号，例如+、^以及=等符号时，我们可以将regex参数设置成False（默认的是True），这样就不会被当做是正则表达式的符号，代码如下

df['a'].str.contains('^', regex=False)
#或者是 df['a'].str.contains('^')

根据多个关键字来筛选

当关键字不仅仅只有一个的时候，就可以这么来操作

pattern = 'horror|stand-up' mask = df['listed_in'].str.contains(pattern, case=False, na=False)
df[mask].sample(5)

output

我们用了|来表示“或”的意思，将电影类别包含“horror”或者是“stand-up”这两类的电影筛选出来

除此之外，我们还可以这么来做

mask1 = df['listed_in'].str.contains("horror", case=False)
mask2 = df['listed_in'].str.contains("stand-up", case=False)
df[mask1 | mask2].sample(5)

出来的结果和上述一样，只不过过程可能稍加繁琐，除了|表示的是“或”之外，也有表示的是和，也就是&标识符，意味着条件全部都需要满足即可，例如

mask1 = (df['listed_in'].str.contains('horror', case=False, na=False))
mask2 = (df['type'].isin(['TV Show']))
df[mask1 & mask2].head(3)

output

我们可以添加多个条件在其中，多个条件同时满足，例如

mask1 = df['rating'].str.contains('tv', case=False, na=False)
mask2 = df['listed_in'].str.contains('tv', case=False, na=False)
mask3 = df['type'].str.contains('tv', case=False, na=False)
df[mask1 & mask2 & mask3].head()

output

正则表达式在pandas筛选数据中的应用

我们同时也可以将正则表达式应用在如下的数据筛选当中，例如str.contains('str1.*str2')代表的是文本数据是否以上面的顺序呈现，

pattern = 'states.*mexico' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()

output

其中.*在正则表达式当中表示匹配除换行符之外的所有字符，我们需要筛选出来包含states以及mexico结尾的文本数据，我们再来看下面的例子

pattern = 'states.*mexico|mexico.*states' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()

output

我们筛选出来的文本数据满足两个条件当中的一个即可

lambda方法来筛选文本数据中的应用

有一些筛选数据的方式可能稍显复杂，因此需要lambda方法的介入，例如

cols_to_check = ['rating','listed_in','type']
pattern = 'tv' mask = data[cols_to_check].apply(
        lambda col:col.str.contains(
        pattern, na=False, case=False)).all(axis=1)

我们需要在rating、listed_in以及type这三列当中筛选出包含tv的数据，我们来看一下结果如何

df[mask].head()

output

我们再来看下面的这个例子，

mask = df.apply(
    lambda x: str(x['director']) in str(x['cast']), 
    axis=1)

上面的例子当中是来查看director这一列是否被包含在了cast这一列当中，结果如下

df[mask].head()

output

filter方法

我们还可以通过filter方法来筛选文本的数据，例如筛选出列名包含in的数据，代码如下

df.filter(like='in', axis=1).head(5)

output

当然我们也可以用.loc方法来实现，代码如下

df.loc[:, df.columns.str.contains('in')]

出来的结果和上述的一样

要是我们将axis改成0，就意味着是针对行方向的，例如筛选出行索引中包含Love的影片，代码如下

df_1 = df.set_index('title')
df_1.filter(like='Love', axis=0).head(5)

output

当然我们也可以通过.loc方法来实现，代码如下

df_1.loc[df_1.index.str.contains('Love'), :].head()

筛选文本数据的其他方法

我们可以使用query方法，例如我们筛选出国家是韩国的影片

df.query('country == "South Korea"').head(5)

output

例如筛选出影片的添加时间是11月的，代码如下

mask = df["date_added"].str.startswith("Nov")
df[mask].head()

output

那既然用到了startswith方法，那么就会有endswith方法，例如

df['col_name'].str.endswith('2019')

除此之外还有这些方法可以用来筛选文本数据

df['col_name'].str.len()>10
df['col_name'].str.isnumeric()
df[col_name].str.isupper()
df[col_name].str.islower()

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正则表达式 pandas 数据筛选 DataFrame 缺失值索引数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何做到释放数据价值？看完本文你就懂了（CDA成长陪伴计划）

下一篇12天快速入门高薪算法岗，CDA寒假集训营席位已开抢！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

3000字详解Pandas数据查询，建议收藏（CDA干货分享）

导入数据集和模块

根据文本内容来筛选

根据关键字来筛选

根据多个关键字来筛选

正则表达式在pandas筛选数据中的应用

lambda方法来筛选文本数据中的应用

filter方法

筛选文本数据的其他方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载