【CDA干货】Python os.walk遍历文件全指南：从基础到实战-CDA数据分析师官网

热线电话：13121318867

首页大数据时代【CDA干货】Python os.walk遍历文件全指南：从基础到实战

【CDA干货】Python os.walk遍历文件全指南：从基础到实战

2026-01-05

在Python文件操作场景中，批量处理文件、遍历目录树是高频需求——无论是统计某文件夹下的文件数量、筛选特定类型文件，还是批量修改文件名、批量读取文件内容，都需要先实现对目录和文件的高效遍历。而os.walk()函数作为Python标准库os模块的核心工具，凭借其“递归遍历目录树”的强大能力，成为处理这类需求的首选方案。它无需手动实现递归逻辑，就能自动遍历指定目录下的所有子目录和文件，极大简化了代码复杂度。本文将系统拆解os.walk()的工作原理、基础用法、进阶实战场景及注意事项，帮助读者快速掌握文件遍历技巧，解决实际开发中的批量文件处理问题。

一、核心认知：os.walk()是什么？能做什么？

os.walk()是Python内置的目录树遍历函数，其核心作用是“自上而下”或“自下而上”遍历指定目录下的所有子目录和文件，返回每个目录下的“当前目录路径、子目录列表、文件列表”三大核心信息。

核心价值的体现在于：

自动递归：无需手动编写递归代码，即可遍历目录树的所有层级（包括深层子目录）；
信息完整：直接返回目录和文件的核心信息，无需额外调用os.listdir()等函数辅助获取；
灵活可控：支持遍历方向（自上而下/自下而上）、过滤特定目录/文件，适配不同业务场景。

适用场景：批量处理文件（如批量重命名、批量转换格式）、目录结构分析（如统计各类型文件数量）、文件检索（如查找包含特定内容的文件）、目录备份与迁移等。

核心前提：使用os.walk()前需导入os模块（内置模块，无需额外安装）；遍历的目录路径建议使用“绝对路径”，避免因运行环境不同导致路径错误。

二、原理拆解：os.walk()的工作机制与返回值

要灵活使用os.walk()，首先需要理解其工作机制和返回值结构——这是后续实现各类遍历需求的基础。

1. 核心参数

os.walk(top, topdown=True, onerror=None, followlinks=False)的核心参数说明：

top（必传）：指定要遍历的根目录路径（字符串类型）；
topdown（可选，默认True）：遍历方向控制——True表示“自上而下”（先遍历根目录，再遍历根目录下的子目录），False表示“自下而上”（先遍历最深层子目录，再回溯到根目录）；
onerror（可选，默认None）：错误处理函数——当遍历过程中遇到错误（如权限不足、目录不存在）时，会调用该函数处理（如打印错误信息）；
followlinks（可选，默认False）：是否跟随符号链接（Windows系统的快捷方式、Linux系统的符号链接）——True表示跟随，False表示不跟随（避免陷入无限循环）。

2. 返回值结构

os.walk()返回一个“生成器”（generator），每次迭代会返回一个元组(root, dirs, files)，其中：

root：当前正在遍历的目录的绝对路径（字符串）；
dirs：当前目录下的所有子目录名称列表（列表元素为字符串，仅包含目录名，不包含完整路径）；
files：当前目录下的所有文件名称列表（列表元素为字符串，仅包含文件名，不包含完整路径）。

示例说明：假设存在如下目录结构：


data/
├─ docs/
│  ├─ report.txt
│  └─ plan.docx
├─ images/
│  ├─ pic1.jpg
│  └─ pic2.png
└─ readme.md

当调用os.walk("data")时，第一次迭代返回("data", ["docs", "images"], ["readme.md"])，第二次迭代返回("data/docs", [], ["report.txt", "plan.docx"])，第三次迭代返回("data/images", [], ["pic1.jpg", "pic2.png"])。

三、基础实操：os.walk()的3个核心基础用法

掌握基础用法是实现复杂需求的前提，以下3个案例覆盖“遍历所有目录和文件”“获取文件完整路径”“筛选特定类型文件”，新手可直接复制代码运行学习。

案例1：遍历所有目录和文件，打印核心信息

最基础的用法：遍历指定目录下的所有目录和文件，打印每个目录的路径、子目录列表和文件列表。


import os

# 定义要遍历的根目录（建议使用绝对路径，此处以相对路径为例）
root_dir = "data"

# 遍历目录树
for root, dirs, files in os.walk(root_dir):
    print(f"当前遍历目录：{root}")
    print(f"该目录下的子目录：{dirs}")
    print(f"该目录下的文件：{files}")
    print("-" * 50)  # 分隔符，便于阅读

运行结果（对应上文目录结构）：


当前遍历目录：data
该目录下的子目录：['docs', 'images']
该目录下的文件：['readme.md']
--------------------------------------------------
当前遍历目录：data/docs
该目录下的子目录：[]
该目录下的文件：['report.txt', 'plan.docx']
--------------------------------------------------
当前遍历目录：data/images
该目录下的子目录：[]
该目录下的文件：['pic1.jpg', 'pic2.png']
--------------------------------------------------

案例2：获取所有文件的完整路径

files列表仅返回文件名，若需要操作文件（如读取、修改），需拼接root和文件名得到完整路径（推荐使用os.path.join()，自动适配Windows/Linux的路径分隔符）。


import os

root_dir = "data"

for root, dirs, files in os.walk(root_dir):
    # 遍历当前目录下的所有文件，拼接完整路径
    for file_name in files:
        file_path = os.path.join(root, file_name)  # 拼接完整路径
        print(f"文件完整路径：{file_path}")

运行结果：


文件完整路径：datareadme.md  # Windows系统，分隔符为
# 或 data/readme.md  # Linux/Mac系统，分隔符为/
文件完整路径：datadocsreport.txt
文件完整路径：datadocsplan.docx
文件完整路径：dataimagespic1.jpg
文件完整路径：dataimagespic2.png

案例3：筛选特定类型文件（如所有.txt文件）

实际开发中常需要筛选特定后缀的文件，可通过str.endswith()方法判断文件名后缀。


import os

root_dir = "data"
target_suffix = ".txt"  # 要筛选的文件后缀

# 遍历目录，筛选目标文件
for root, dirs, files in os.walk(root_dir):
    for file_name in files:
        if file_name.endswith(target_suffix):  # 判断后缀是否匹配
            file_path = os.path.join(root, file_name)
            print(f"找到{target_suffix}文件：{file_path}")

运行结果：


找到.txt文件：datadocsreport.txt

拓展：若需筛选多种类型文件（如.txt和.docx），可修改判断条件为if file_name.endswith((".txt", ".docx"))。

四、进阶实战：os.walk()的4个高频业务场景

掌握基础用法后，结合实际业务需求拓展进阶功能，以下4个场景覆盖批量处理、统计分析、文件检索等核心需求，可直接适配到项目开发中。

场景1：批量重命名文件

需求：将“data/images”目录下所有.jpg文件重命名为“img_序号.jpg”（如img_1.jpg、img_2.jpg）。


import os

root_dir = "data/images"
prefix = "img_"  # 新文件名前缀
suffix = ".jpg"  # 目标文件后缀
count = 1  # 序号计数器

for root, dirs, files in os.walk(root_dir):
    for file_name in files:
        if file_name.endswith(suffix):
            # 构建旧文件路径和新文件路径
            old_path = os.path.join(root, file_name)
            new_name = f"{prefix}{count}{suffix}"
            new_path = os.path.join(root, new_name)
            
            # 重命名文件
            os.rename(old_path, new_path)
            print(f"重命名完成：{old_path} → {new_path}")
            count += 1

关键说明：重命名前建议先打印旧路径和新路径，确认无误后再执行os.rename()，避免误改文件。

场景2：统计目录下各类型文件数量

需求：遍历“data”目录，统计所有文件类型（按后缀分类）的数量，如.txt文件1个、.jpg文件2个。


import os

root_dir = "data"
file_count = {}  # 字典：key为文件后缀，value为数量

for root, dirs, files in os.walk(root_dir):
    for file_name in files:
        # 获取文件后缀（若文件无后缀，记为"无后缀文件"）
        suffix = os.path.splitext(file_name)[1] or "无后缀文件"
        # 更新计数
        file_count[suffix] = file_count.get(suffix, 0) + 1

# 打印统计结果
print("目录文件类型统计：")
for suffix, count in file_count.items():
    print(f"{suffix}文件：{count}个")

运行结果：


目录文件类型统计：
.md文件：1个
.txt文件：1个
.docx文件：1个
.jpg文件：2个
.png文件：1个

场景3：查找包含特定内容的文件

需求：遍历“data”目录下所有.txt文件，查找包含“2024年度计划”的文件，并打印文件路径。


import os

root_dir = "data"
target_content = "2024年度计划"  # 要查找的内容
target_suffix = ".txt"

for root, dirs, files in os.walk(root_dir):
    for file_name in files:
        if file_name.endswith(target_suffix):
            file_path = os.path.join(root, file_name)
            # 读取文件内容（注意编码，避免中文乱码）
            try:
                with open(file_path, "r", encoding="utf-8") as f:
                    content = f.read()
                    if target_content in content:
                        print(f"找到包含目标内容的文件：{file_path}")
            except Exception as e:
                print(f"读取文件失败：{file_path}，错误信息：{e}")

关键说明：读取文件时需指定正确的编码（如utf-8、gbk），避免因编码不匹配导致读取失败；建议加入try-except捕获异常，提升代码健壮性。

场景4：批量复制文件到目标目录

需求：将“data/docs”目录下所有.docx文件复制到“backup/docs_backup”目录（若目标目录不存在，先创建）。


import os
import shutil  # 用于复制文件

source_dir = "data/docs"  # 源目录
target_dir = "backup/docs_backup"  # 目标目录
target_suffix = ".docx"

# 若目标目录不存在，创建目录（包括多级目录）
if not os.path.exists(target_dir):
    os.makedirs(target_dir)

# 遍历源目录，复制目标文件
for root, dirs, files in os.walk(source_dir):
    for file_name in files:
        if file_name.endswith(target_suffix):
            source_path = os.path.join(root, file_name)
            target_path = os.path.join(target_dir, file_name)
            # 复制文件
            shutil.copy2(source_path, target_path)  # copy2会保留文件元信息（如创建时间）
            print(f"复制完成：{source_path} → {target_path}")

拓展：若需复制整个目录结构（包括子目录），可修改代码逻辑，在复制文件时同步创建目标目录的子目录结构。

五、注意事项：规避os.walk()的4个常见坑

在使用os.walk()时，若不注意以下细节，容易出现路径错误、程序崩溃等问题，需重点规避：

1. 路径问题：优先使用绝对路径和os.path.join()

相对路径容易因运行环境不同（如不同目录下执行脚本）导致“找不到目录”错误，建议使用绝对路径（如C:/data、/home/user/data）；拼接路径时必须使用os.path.join()，避免手动拼接（如root + "/" + file_name），否则会因系统分隔符不同导致错误。

2. 权限问题：处理遍历错误

遍历某些系统目录（如Windows的C:/Windows、Linux的/root）时，可能因权限不足导致遍历失败。此时可通过onerror参数指定错误处理函数，捕获并处理错误：


import os

def handle_error(err):
    """错误处理函数：打印错误信息"""
    print(f"遍历错误：{err}")

for root, dirs, files in os.walk("C:/Windows", onerror=handle_error):
    print(root)

3. 符号链接问题：避免无限循环

若目录中存在符号链接（快捷方式），且设置followlinks=True，可能导致程序陷入无限循环（如符号链接指向父目录）。建议默认保持followlinks=False，仅在明确需要跟随符号链接时开启，并确保符号链接不会形成循环。

4. 目录修改问题：遍历中修改dirs会影响遍历结果

当topdown=True时，修改dirs列表会影响后续遍历的子目录（如删除dirs中的某个元素，会跳过该子目录的遍历）。若需跳过特定子目录，可利用这一特性：


import os

root_dir = "data"

for root, dirs, files in os.walk(root_dir):
    # 跳过名为"images"的子目录（不遍历该目录下的内容）
    if "images" in dirs:
        dirs.remove("images")
    print(f"当前遍历目录：{root}")