作者:俊欣
来源:关于数据分析与可视化
大家好,又是新的一周,也是2021年的最后一周,今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据,希望会对读者朋友有所帮助。
我们先导入pandas模块,并且读取数据,代码如下
import pandas as pd
df = pd.read_csv("netflix_titles.csv")
df.head()
首先我们可以根据文本内容直接来筛选,返回的是True如果文本内容是相匹配的,False如果文本内容是不匹配的,代码如下
mask = df['type'].isin(['TV Show'])
mask.head()
output
0 False 1 True 2 True 3 True 4 True Name: type, dtype: bool
然后我们将这个mask作用到整个数据集当中,返回的则是满足与True条件的数据
df[mask].head()
output
当然我们也可以和.loc方法来相结合,只挑选少数的几个指定的列名,代码如下
df.loc[mask, ['title','country','duration']].head()
output
title country duration 1 Blood & Water South Africa 2 Seasons 2 Ganglands NaN 1 Season 3 Jailbirds New Orleans NaN 1 Season 4 Kota Factory India 2 Seasons 5 Midnight Mass NaN 1 Season
当然要是我们所要筛选的文本内容并不仅仅只有1个,就可以这么来操作,代码如下
mask = df['type'].isin(['Movie','TV Show'])
结果返回的是True,要是文本内容全部都匹配,要是出现一个不匹配的现象则返回的是False
我们可以根据某个关键字来筛选数据,数据集当中的listed-in包含的是每部电影的种类,当然很多电影并不只有一个种类,而是同时涉及到很多个种类,例如某一部电影既有“科幻”元素,也有“爱情”元素同时还包含了部分“动作片”的元素。
我们按照某个关键字来筛选,例如筛选出包含了“horror”这个关键字的影片,代码如下
mask = df['listed_in'].str.contains('horror', case=False, na=False)
其中的case=False表明的是忽略字母的大小写问题,na=False表明的是对于缺失值返回的是False,
df[mask].head()
output
而要是文本数据当中包含了一些特殊符号,例如+、^以及=等符号时,我们可以将regex参数设置成False(默认的是True),这样就不会被当做是正则表达式的符号,代码如下
df['a'].str.contains('^', regex=False)
#或者是 df['a'].str.contains('^')
当关键字不仅仅只有一个的时候,就可以这么来操作
pattern = 'horror|stand-up' mask = df['listed_in'].str.contains(pattern, case=False, na=False)
df[mask].sample(5)
output
我们用了|来表示“或”的意思,将电影类别包含“horror”或者是“stand-up”这两类的电影筛选出来
除此之外,我们还可以这么来做
mask1 = df['listed_in'].str.contains("horror", case=False)
mask2 = df['listed_in'].str.contains("stand-up", case=False)
df[mask1 | mask2].sample(5)
出来的结果和上述一样,只不过过程可能稍加繁琐,除了|表示的是“或”之外,也有表示的是和,也就是&标识符,意味着条件全部都需要满足即可,例如
mask1 = (df['listed_in'].str.contains('horror', case=False, na=False))
mask2 = (df['type'].isin(['TV Show']))
df[mask1 & mask2].head(3)
output
我们可以添加多个条件在其中,多个条件同时满足,例如
mask1 = df['rating'].str.contains('tv', case=False, na=False)
mask2 = df['listed_in'].str.contains('tv', case=False, na=False)
mask3 = df['type'].str.contains('tv', case=False, na=False)
df[mask1 & mask2 & mask3].head()
output
我们同时也可以将正则表达式应用在如下的数据筛选当中,例如str.contains('str1.*str2')代表的是文本数据是否以上面的顺序呈现,
pattern = 'states.*mexico' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()
output
其中.*在正则表达式当中表示匹配除换行符之外的所有字符,我们需要筛选出来包含states以及mexico结尾的文本数据,我们再来看下面的例子
pattern = 'states.*mexico|mexico.*states' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()
output
我们筛选出来的文本数据满足两个条件当中的一个即可
有一些筛选数据的方式可能稍显复杂,因此需要lambda方法的介入,例如
cols_to_check = ['rating','listed_in','type']
pattern = 'tv' mask = data[cols_to_check].apply(
lambda col:col.str.contains(
pattern, na=False, case=False)).all(axis=1)
我们需要在rating、listed_in以及type这三列当中筛选出包含tv的数据,我们来看一下结果如何
df[mask].head()
output
我们再来看下面的这个例子,
mask = df.apply(
lambda x: str(x['director']) in str(x['cast']),
axis=1)
上面的例子当中是来查看director这一列是否被包含在了cast这一列当中,结果如下
df[mask].head()
output
我们还可以通过filter方法来筛选文本的数据,例如筛选出列名包含in的数据,代码如下
df.filter(like='in', axis=1).head(5)
output
当然我们也可以用.loc方法来实现,代码如下
df.loc[:, df.columns.str.contains('in')]
出来的结果和上述的一样
要是我们将axis改成0,就意味着是针对行方向的,例如筛选出行索引中包含Love的影片,代码如下
df_1 = df.set_index('title')
df_1.filter(like='Love', axis=0).head(5)
output
当然我们也可以通过.loc方法来实现,代码如下
df_1.loc[df_1.index.str.contains('Love'), :].head()
我们可以使用query方法,例如我们筛选出国家是韩国的影片
df.query('country == "South Korea"').head(5)
output
例如筛选出影片的添加时间是11月的,代码如下
mask = df["date_added"].str.startswith("Nov")
df[mask].head()
output
那既然用到了startswith方法,那么就会有endswith方法,例如
df['col_name'].str.endswith('2019')
除此之外还有这些方法可以用来筛选文本数据
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14