用python打造一款文件搜索工具，所有功能自己定义！-CDA数据分析师官网

热线电话：13121318867

首页大数据时代用python打造一款文件搜索工具，所有功能自己定义！

用python打造一款文件搜索工具，所有功能自己定义！

2020-09-02

作者：陈熹

来源：早起Python

大家好，又到了python办公自动化系列。在日常的办公中，我们经常会从一堆不同格式的文件(夹)中搜索特定的文件，可能你是凭着记忆去找或是借助软件，但你有想过如何用python实现吗？

扫描路径内的内容

有些时候我们会希望在当前文件夹的成百上千个文件中快速找到需要的文件，如果这个文件夹又包括很多个子文件夹，并不需要程序进去查找而无端耗费资源。这就是典型的「扫描一层搜索」

1. 基于 os.scandir()

需求说明

❝

输出C:\Program Files (x86)路径下名字包含“Windows”的文件夹名称，并统计个数

❞

步骤分析

这是一个非遍历的需求，只需要在目的文件夹内扫描一圈判断即可。用到的方法是os.scandir()，使用如下：

import os
path = ...
for file in os.scandir(path): 
    print(file.name, file.path, file.is_dir())

上面代码最后输出的是给定路径下各内容的名字、绝对路径，并判断其是否是文件夹

需要注意的是os.scandir()只在路径下一级扫描，需求实现的代码如下(代码逻辑很简单，可以自己做相应调整)：

import os
num = 0
for file in os.scandir(r'C:\\Program Files (x86)'):
    if file.is_dir():
        if 'Windows' in file.name:
            print(file.name)
            num += 1
print('含有Windows的文件夹个数为：', num)

2. 基于 os.listdir()

需求说明

输出C:\Program Files (x86)路径下所有可执行文件 (即后缀为 .exe)

步骤分析

依然是非遍历的需求，这里使用os.listdir()，它比os.scandir()简单一些，可直接调用输出名称而非路径。后缀名可以用字符串的切片来判断，但难免失去灵活性。此时建议用字符串方法string.endswith()来判断名称的结尾是否是.exe，代码如下：

import os 
for file in os.listdir(r'C:\\Program Files (x86)'):
    if file.endswith('.exe'):
        print(file)

三、遍历文件夹搜索文件

更多时候我们希望给定一个大概的路径，在这个路径下的所有文件夹里一层一层找，找到特定文件或者符合要求的文件，这里需要遍历文件，有两种主要的方法：

1. 基于 os.walk()

os.walk 遍历后产生三个参数：当前文件夹路径, 包含文件夹名称 [列表形式], 包含文件名称[列表形式]，可以用如下代码完成简单遍历：

import os
for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    print(f'打开文件夹{dirpath}')
    if dirnames:
        print(dirnames)
    if filenames:
        print(filenames)
    print('-' * 10)

需求说明

遍历C:\Program Files (x86)找出所有新版Excel文件 (即后缀为.xlsx)

步骤分析

只要理解了os.walk()的工作模式，用endswith()判断后缀即可。最后如果需要获得绝对路径可以把当前文件夹路径和文件名拼接，简单一点用 + 或者字符串格式化，也可以用os模块内的方法

import os
for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    if filenames:
        for i in filenames:
            if i.endswith('.xlsx'):
                print(os.path.join(dirpath, i))

2. 基于非 os 方法：glob

glob在之前的推文也反复提到遍历框架：

import glob
for file in glob.glob('**/*', recursive=True): 
    print(file)

**/*的使用表示用通配符指代给定路径下的任何一层，recursive参数允许遍历搜索由于glob可以使用「通配符」，大大拓宽了灵活程度，这里利用 glob 也来完成上面的需求

需求说明

遍历C:\Program Files (x86)找出所有新版Excel文件(即后缀为.xlsx)

import glob
for file in glob.glob('**/*.xlsx', recursive=True): 
    print(file)

可以看到非常简单，在原有代码基础上加上后缀名就能够完成特定类型文件的搜索。如果需要搜索「特定文件」，如遍历C:\Program Files (x86)找到文件practice.txt，「只需要后一个*改成具体名称就行」

import glob
for file in glob.glob('**/practice.txt', recursive=True): 
    print(file)

四、写在最后

通过本文的Python自动化脚本制作过程，我们可以再次体会Python办公自动化的强大！如果对自动化代码和数据感兴趣可以在后台回复自动化获取。

当然本文只是基于几个简单的需求来讲解使用Python来制作搜索文件脚本的主要方法，接下来你可以结合之前的自动化案例或以根据自己的需求添加一些其他的规则或增加新的功能，打造出一款属于你的软件！

最后还是希望大家能够理解Python办公自动化的一个核心就是「批量操作-解放双手」，让复杂的工作自动化！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇工作再难找，这几类工作也不能干，别入那些没出息的坑！

下一篇学习numpy，看这篇文章就够啦

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用python打造一款文件搜索工具，所有功能自己定义！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载