python办公自动化｜批量处理文件，一学就会-CDA数据分析师官网

python办公自动化｜批量处理文件，一学就会

2020-10-15

作者：刘早起

来源：早起Python

大家好，又到了python办公自动化专题。要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件，这并不难，但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒！今天我将以处理微博热搜数据来示例如何使用Python批量处理文件夹中的文件，主要将涉及：

Python批量读取不同文件夹(⭐⭐⭐)
Pandas数据处理(⭐⭐)
Python操作Markdown文件(⭐)

需求分析

首先来说明一下需要完成的任务，下面是我们的文件夹结构

因为微博历史热搜是没有办法去爬的，所以只能写一个爬虫每天定时爬取热搜并保存，所以在我当时分析数据时使用的就是上图展示的数据，每天的数据以套娃形式被保存在三级目录下，并且热搜是以markdown文件存储的，打开是这样

而我要做的就是将这三个月的微博热搜数据处理成这样

这困难吗，手动的话无非是依次点三下进入每天的数据文件夹再打开md文件手动复制粘贴进Excel，不就几万条数据，大不了一天不吃饭也能搞定！现在我们来看看如何用Python光速处理。

Python实现

在操作之前我们来思考一下如何使用Python实现，其实和手动的过程类似：先读取全部文件，再对每一天的数据处理、保存。所以第一步就是将我们需要的全部文件路径提取出来，首先导入相关库

import pandas as pd
import os
import glob
from pathlib import Path

读取全部文件名的方法有很多比如使用OS模块

但是由于我们是多层文件夹，使用OS模块只能一层一层读取，要写多个循环从而效率不高，所以我们告别os.path使用Pathlib来操作，三行代码就能搞定，看注释

from pathlib import Path
 
p = Path("/Users/liuhuanshuo/Desktop/热搜数据/") #初始化构造Path对象

FileList=list(p.glob("**/*.md")) #得到所有的markdown文件

来看下结果

成功读取了热搜数据下多层文件夹中的全部md文件！但是新的问题来了，每天有两条热搜汇总，一个11点一个23点，考虑到会有重合数据所以我们在处理之前先进行去重，而这就简单了，不管使用正则表达式还是按照奇偶位置提取都行，这里我是用lambda表达式一行代码搞定。

filelist = list(filter(lambda x: str(x).find("23点") >= 0, FileList))

现在我们每天就只剩下23点的热搜数据，虽然是markdown文件，但是Python依旧能够轻松处理，我们打开其中一个来看看。

打开方式和其他文件类似使用with语句，返回一个list，但是这个list并不能直接为我们所用，第一个元素包含时间，后面每天的热搜和热度也不是直接存储，含有markdown语法中的一些没用的符号和换行符，而清洗这些数据就是常规操作了，使用下面的代码即可，主要就是使用正则表达式，看注释：

with open(file) as f:
    lines = f.readlines()
    lines = [i.strip() for i in lines] #去除空字符
    data = list(filter(None, lines))
    del data[0]
    data = data[0:100]
    date = re.findall('年(.+)2',str(file))[0]
    content = data[::2] #奇偶分割
    rank = data[1::2]
        #提取内容与排名
    for i in range(len(content)):
            content[i] = re.findall('、(.+)',content[i])[0]
    for i in range(len(rank)):
            rank[i] = re.findall(' (.+)',rank[i])[0]

最后只需要写一个循环遍历每一天的文件并进行清洗，再创建一个DataFrame用于存储每天的数据即可。

可以看到，并没有使用太复杂的代码就成功实现了我们的需求！

结束语

以上就是使用Python再一次解放双手并成功偷懒的案例，可能读取Markdown文件在你的日常工作中并用不到，但是通过本案例希望你能学会如何批量处理文件夹，批量读取清洗数据。更重要的是在你的工作学习中，遇到需要重复操作的任务时，是否能够想起使用Python来自动化解决！拜拜，我们下个案例见～

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

数据分析数据处理正则表达式人工智能 pandas DataFrame python 需求分析

数据分析咨询请扫描二维码

上一篇python为什么不用分号作终止符？

下一篇python在计算内存时应该注意的问题？

python办公自动化｜批量处理文件，一学就会

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...