作者:刘早起
来源:早起Python
大家好,又到了python办公自动化专题。今天讲的是各位一定会接触到的PDF转换,关于各种格式的文件转换为PDF有很多第三方工具与网站可以实现,但是使用Python的好处不仅可以批量转换,同时一旦脚本写完了以后就可以一键执行,彻底解放双手,那么本文就来盘一盘如何使用Python来将Word/Excel/PPT/Markdown/Html等各种格式的文件转换为PDF!
Word转PDF
Word转PDF应该是最常见的需求了,毕竟使用PDF格式可以更方便展示文档,虽然在Word中可以直接导出为PDF格式,但是使用Python可以批量转换,更加高效。
目前在Python中针对Word转换为PDF的库有很多,比如win32就可以调用word底层vba,将word转成pdf,或者comtypes等,但是这些常用的库仅能在Windows机器上运行,所以为了照顾mac用户本文使用一个比较小众的库docx2pdf,看名字就能知道这是专门用于word转pdf,安装很简单
pip install docx2pdf
使用也比win32等库更简洁,一行代码导入一行代码转换即可
from docx2pdf import convert convert("input.docx", "output.pdf")
但是有人就会说虽然简单,但是这个操作word本身就可以完成,好的接下来放大招,我们可以使用下面的代码找到当前或者指定文件夹下的全部word文件
#查找当前目录下的全部word文件 import os import glob from pathlib import Path path = os.getcwd() + '/' p = Path(path) #初始化构造Path对象 FileList=list(p.glob("**/*.docx"))
接下来只要写一个循环就可以将该目录下的全部word一次性转换为PDF
for file in FileList: convert(file,f"{file}.pdf")
就这样,不到10行代码,只要一秒,指定文件夹中5份Word就轻松转换为PDF,现在还能使用我们之前自动化系列文章写过的批量合并PDF结合一键合并这5份PDF!
Excel转PDF
Excel转PDF可能平时用的不多,但是作为Office全家桶中的重要工具,并且转换完的表格可以复制所以我们也讲一下。使用到的工具既不是常用的openpyxl也不是pandas,而是另一个专门用于处理PDF的库fpdf
import pandas as pd import numpy as np df_1 = pd.DataFrame(np.random.randn(10, 2), columns=list('AB'))
为了方便讲解我们使用Pandas和NumPy来创建一个示例数据文件,当然也可以使用从本地读取
现在可以使用下面的代码将这个表格转换为PDF
from fpdf import FPDF pdf = FPDF() pdf.add_page() pdf.set_xy(0, 0) pdf.set_font('arial', 'B', 14) pdf.cell(60) pdf.cell(70, 10, 'Excel to PDF', 0, 2, 'C') pdf.cell(-40) pdf.cell(50, 10, 'Index Column', 1, 0, 'C') pdf.cell(40, 10, 'A', 1, 0, 'C') pdf.cell(40, 10, 'B', 1, 2, 'C') pdf.cell(-90) pdf.set_font('arial', '', 12) for i in range(0, len(df_1)): col_ind = str(i) col_a = str(df_1.A.iloc[i]) col_b = str(df_1.B.iloc[i]) pdf.cell(50, 10, '%s' % (col_ind), 1, 0, 'C') pdf.cell(40, 10, '%s' % (col_a), 0, 0, 'C') pdf.cell(40, 10, '%s' % (col_b), 0, 2, 'C') pdf.cell(-90) pdf.output('Excel2PDF.pdf', 'F')
,其实思路和openpyxl类似,遍历每一个单元格并写入数据,只不过现在是往PDF文件中写入。
PPT转PDF
本节介绍一下PPT如何转换为PDF,但是我搜了一大圈都没有MAC用户可以实现的方法,所以只能针对Windows去操作,使用到的就是在word2pdf中讲到的comtypes
import sys import os import comtypes.client #设置路径 input_file_path = sys.argv[1] output_file_path = sys.argv[2] input_file_path = os.path.abspath(input_file_path) output_file_path = os.path.abspath(output_file_path) #创建PDF powerpoint = comtypes.client.CreateObject("Powerpoint.Application") powerpoint.Visible = 1 slides = powerpoint.Presentations.Open(input_file_path) #保存PDF slides.SaveAs(output_file_path, 32) slides.Close()
相关参数与细节可以查阅comtypes官方文档,因为我是mac所以没有过多研究,在成功转换之后就可以和我们之前的批量操作与合并进行结合实现自动化了!
md转pdf
关于markdown转pdf,几乎所有markdown编辑器都支持导出为pdf格式,本以为这个需求并不高,但是研究了一圈发现很多老外造了很多md转pdf的轮子,比如md2pdf、markdown2pdf、md2pdf-client等。因为大多数博客使用的是markdown格式,使用这些库可以很好的将博客文章批量转换为PDF文档存储。
早起都试了一圈,找到一个语法最简单的markdown2pdf3,直接pip安装即可,使用两行代码即可将一个md文件转换为pdf
from markdown2pdf3 import * convert_markdown_to_pdf('test.md') #你的markdown文件路径
但是要注意的是如果有中文,还需要进行一些额外的设置,可以查阅官方文档,不过现在就能和之前讲的Word转PDF结合,批量转换指定路径下的全部markdown文件为pdf,比如可以使用下面的代码找到当前文件夹下的全部md文件
import os import glob from pathlib import Path path = os.getcwd() + '/' p = Path(path) #初始化构造Path对象 FileList=list(p.glob("**/*.md"))
html转pdf
关于html也就是网页转为PDF是来问我最多的问题,其实很简单,之前在Selenium爬取公众号全部文章这篇文章中就提到使用PDFKIT即可,但是并不是直接pip安装pdfkit就行,我们需要提前进入下面的网站选择自己电脑系统对应的wkhtmltopdf下载安装
https://wkhtmltopdf.org/downloads.html
安装完使用pip安装pdfkit
pip install pdfkit
现在我们就能使用两行代码转换指定网页为PDF格式,比如将我的第一篇自动化文章转为PDF
看起来效果还是非常好的,所有格式包括代码都完整的保存了下来,接下来怎么做就不用我多说了,比如你想下载一个公众号所有文章为PDF格式,那就先将历史文章URL提取出来,接着使用pdfkit转换即可,而这两步骤我们都已经详细讲解过了!
——热门课程推荐:
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14