作者:陈熹
来源:早起Python
在之前的自动化系列文章中,我们分别讲解过python操作Excel利器openpyxl,也讲过python操作PDF的几种方式,今天我们将通过代码讲解Python操作Word文档docx的常用方法。
安装
docx是一个非标准库,需要在命令行(终端)中使用pip即可安装
pip install python-docx
一定要注意,安装的时候是python-docx而实际调用时均为docx!
前置知识
Word中一般可以结构化成三个部分:
也就是Document - Paragraph - Run三级结构,这是最普遍的情况。其中文字块Run最难理解,并不能完成按照图中所示,两个符号之间的短句是文字块。
通常情况下可以这么理解,但假如这个短句子中有多种不同的 样式,则会被划分成多个文字块,以图中的第一个黄圈为例,如果给这个短句添加一些细节
数据分析咨询请扫描二维码