京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源:【公众号】
Python技术
Python 对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的 walk 方法操作:
import os for root,dirs,files in os.walk("/Users/cxhuan/Downloads/globtest/hello"):
for dir in dirs:
print(os.path.join(root, dir))
for file in files:
print(os.path.join(root, file))
上面代码运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/world /Users/cxhuan/Downloads/globtest/hello/.DS_Store
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world3.txt
/Users/cxhuan/Downloads/globtest/hello/world/world2.txt
上述程序,将 os.walk 读取到的所有路径 root 、目录名 dirs 与文件名 files ,也就是三个文件数组利用 foreach 循环输出。join方法就是将其路径与目录名或者文件名连接起来,组成一个完整的目录。
另一种是用递归的思路,写成下面的形式:
import os files = list()
def dirAll(pathname):
if os.path.exists(pathname):
filelist = os.listdir(pathname)
for f in filelist:
f = os.path.join(pathname, f)
if os.path.isdir(f):
dirAll(f)
else:
dirname = os.path.dirname(f)
baseName = os.path.basename(f)
if dirname.endswith(os.sep):
files.append(dirname+baseName)
else:
files.append(dirname+os.sep+baseName)
dirAll("/Users/cxhuan/Downloads/globtest/hello") for f in files:
print(f)
运行上面代码,得到的结果和上面一样。
这两种方法都没问题,就是写起来比较麻烦,特别是第二种,一不小心还有可能写出 bug 。
今天我们来介绍第三种方法——利用 glob 模块来遍历文件。
glob 是 python 自带的一个操作文件的模块,以简洁实用著称。由于这个模块的功能比较简单,所以也很容易上手和使用。它主要用来查找符合特定规则的文件路径。使用这个模块来查找文件,只需要用到*、? 和 [] 这三个匹配符:
* : 匹配0个或多个字符;
? : 匹配单个字符;
[] :匹配指定范围内的字符,如:[0-9]匹配数字。
glob.glob 方法主要返回所有匹配的文件路径列表。它只有一个参数 pathname ,定义了文件路径匹配规则,这里可以是绝对路径,也可以是相对路径。
我们可以用 * 匹配零个或者多个字符。
输出目录下的子目录或者文件:
for p1 in glob.glob('/Users/cxhuan/Downloads/globtest/*'):
print(p1)
运行上面代码,会将 globtest 文件夹下仅有的目录输出出来,输出内容如下:
/Users/cxhuan/Downloads/globtest/hello
我们也可以通过制定层级来遍历文件或者文件夹:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/*/*'):
print(p)
上面的代码会遍历 globtest 文件夹以及子文件夹,将所有的文件或文件夹路径打印出来:
/Users/cxhuan/Downloads/globtest/hello/world /Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
我们也可以对文件或者文件夹进行过滤:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*3.txt'):
print(p)
上面代码值匹配 hello 目录下的文件名末尾为 ‘3’ 的 txt 文件,运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
我们可以用问号(?)匹配任何单个的字符。
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.txt'):
print(p)
上面的代码输出 hello 目录下的以 ‘hello’ 开头的 txt 文件,输出结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
我们可以使用 [] 来匹配一个范围:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*[0-2].*'):
print(p)
我们想要得到 hello 目录下的文件名结尾数字的范围为 0到2的文件,运行上面代码,获得的输出为:
/Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
python 的 glob 方法可以对文件夹下所有文件进行遍历,并返回一个 list 列表。而 iglob 方法一次只获取一个匹配路径。下面是一个简单的例子来说明二者的区别:
p = glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p) print('----------------------')
p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p)
运行上面代码,结果返回是:
['/Users/cxhuan/Downloads/globtest/hello/hello3.txt', '/Users/cxhuan/Downloads/globtest/hello/hello2.txt',
'/Users/cxhuan/Downloads/globtest/hello/hello1.txt'] ---------------------- <generator
object _iglob at 0x1040d8ac0>
从上面的结果我们可以很容易看到二者的区别,前者返回的是一个列表,后者返回的是一个可迭代对象。
我们针对这个可迭代对象做一下操作看看:
p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p.__next__()) print(p.__next__())
运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt
我们可以看到,针对这个可迭代对象,我们一次可以获取到一个元素。这样做的好处是节省内存,试想如果一个路径下有大量的文件夹或者文件,我们使用这个迭代对象不用一次性全部获取到内存,而是可以慢慢获取。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28