聊聊python 办公自动化之 Excel（上）-CDA数据分析师官网

热线电话：13121318867

首页大数据时代聊聊python 办公自动化之 Excel（上）

聊聊python 办公自动化之 Excel（上）

2020-10-26

作者：星安果

来源：AirPython

1. 前言

在我们日常工作中，经常会使用 Word、Excel、PPT、PDF 等办公软件。但是，经常会遇到一些重复繁琐的事情，这时候手工操作显得效率极其低下；通过python 实现办公自动化变的很有必要。

接下来的一系列文章，我将带大家对 Python 办公自动化做一个全面的总结，绝对的干货！

2. 准备

使用 Python 操作 Excel 文件，常见的方式如下：

xlrd / xlwt
openpyxl
Pandas
xlsxwriter
xlwings
pywin32

xlrd 和 xlwt 是操作 Excel 文件最多的两个依赖库。其中，xlrd 负责读取 Excel 文件，xlwt 可以写入数据到 Excel 文件，我们安装这两个依赖库。

# 安装依赖库
pip3 install xlrd 
pip3 install xlwt

3. xlrd 读取 Excel

使用 xlrd 中的 open_workbook(filepath) 打开本地一个 Excel 文件。

import xlrd

# 打开文件，返回一个工作簿对象
wb = xlrd.open_workbook(file_path)

工作簿对象的 nsheets 属性获取 Sheet 数目，sheet_names() 方法返回所有 Sheet 名称的列表。

# 统计sheet数量
sheets_num, sheets_names = wb.nsheets, wb.sheet_names()
print('sheet数量一共有:', sheets_num)
print('sheet名称分别为:', sheets_names)

筛选出工作簿中的某一个 Sheet 有 2 种方式，分别是：

通过 Sheet 名称
使用位置索引，从 0 开始

# 获取某一个sheet
# 通过名称或者索引获取
sheet = wb.sheet_by_index(0)

# sheet = wb.sheet_by_name('第一个Sheet')
print(sheet)

每一个 sheet 对象都可以利用 name、nrows、ncols 获取 Sheet 名称、行数量、列数量。

另外，row_values(index)、col_values(index) 分别用于获取某一行或某一列的数据列表。

# 获取某一个sheet中，包含的行数量、列数量
sheet_name, sheet_row_count, 
  sheet_column_count = sheet.name, sheet.nrows, sheet.ncols
print('当前sheet名称为:', 
      sheet_name, ",一共有：", 
      sheet_row_count, "行；有：", 
      sheet_column_count, "列")

# 单独获取某一行数据，索引从0开始
# 比如：获取第2行数据
row_datas = sheet.row_values(1)
print('第2行数据为：', row_datas)

# 单独获取某一列数据，索引从0开始
# 比如：获取第二列数据
column_datas = sheet.col_values(1)
print('第2列数据为：', column_datas)

单元格可以通过行索引、列索引，调用 cell(row_index,column_index) 函数获取。需要注意的是，行索引和列索引都是从 0 开始，即：0 代表第一行。在 xlrd 中，单元格的数据类型包含 6 种，用 ctype 属性对应关系如下：

0 -- 空（empty）
1 -- 字符串（string）
2 -- 数字（number）
3 -- date（日期）
4 -- boolean（布尔值）
5 -- error（错误）

# 获取某一个单元格的数据
# 比如：获取第2行第1列的单元格的数据
one_cell = sheet.cell(1, 0)
# 单元格的值
cell_value = one_cell.value
print("单元格的值为:", cell_value)
# 单元格数据类型
cell_type = one_cell.
print("单元格数据类型为:", cell_type)

最后，如果要获取当前 Sheet 所有单元格中的数据，可以通过遍历所有行、列来操作。

# 获取所有单元格的值
print('表格中所有数据如下：')
for r in range(sheet.nrows):
    for i in range(sheet.ncols):
        print(sheet.cell(r, i).value)

4. xlwt 写入 Excel

如果想实现将数据写入到 Excel 中，xlwt 就很方便了。

首先，使用 xlwt 的 Workbook() 方法创建一个工作簿对象；

然后，使用工作簿对象的 add_sheet(sheetname) 方法新增 Sheet；

import xlwt

sheetname = '第一个Sheet'

# 创建一个工作簿对象
wb = xlwt.Workbook()

# 添加Sheet，通过sheet名称
sheet = wb.add_sheet(sheetname)

接着，通过 sheet 对象的 write() 方法，按照行索引和列索引，将数据写入到对应单元格中去。

# 将数据写入到Sheet中
# 3个参数分别是：行索引（从0开始）、列索引（从0开始）、单元格的值
# 第一行第一列，写入一个数据
# 写入标题
for index, title in enumerate(self.titles):
    sheet.write(0, index, title)

# 写入值
for index_row, row_values in enumerate(self.values):
    for index_column, column_value in enumerate(row_values):
        sheet.write(index_row + 1, index_column, column_value)

需要注意的是，最后必须调用工作簿的 save(filepath)，才能在本地生成 Excel 文件。

# 保存文件
# 最后保存文件即可
wb.save(filepath)

5. 进阶用法

接下来，聊聊几个常用的进阶用法

1、获取所有可见的 Sheet

在读取 Sheet 数据时，经常需要过滤隐藏的 Sheet

当 sheet 对象的 visibility 属性值为 0 时，代表此 Sheet 在工作簿中是显示的；否则被隐藏了

def get_all_visiable_sheets(self, wb):
    """
    获取所有可见的sheet
    :param wb:
    :return:
    """
    return list(filter(lambda item: item.visibility == 0, wb.sheets()))

# 1、获取所有可看见的sheet
sheet_visiable = self.get_all_visiable_sheets(wb)
print('所有可见的sheet包含：', sheet_visiable)

2、获取 Sheet 可见行或列

某一个 Sheet 中，可能存在部分行、列被隐藏了。

def get_all_visiable_rows(self, sheet):
    """
    获取某一个sheet中，可见的行
    :param sheet:
    :return:
    """
    result = [index for index in range(sheet.nrows) if sheet.rowinfo_map[index].hidden == 0]
    return result

def get_all_visiable_columns(self, sheet):
    """
    获取某一个sheet中，可见的列
    :param sheet:
    :return:
    """
    result = [index for index in range(sheet.ncols) if sheet.colinfo_map[index].hidden == 0]
    return result

3、获取单元格的样式

以获取单元格字体颜色和背景为例。

def get_cell_bg_color(self, wb, sheet, row_index, col_index):
    """
    获取某一个单元格的背景颜色
    :param wb:
    :param sheet:
    :param row_index:
    :param col_index:
    :return:
    """
    xfx = sheet.cell_xf_index(row_index, col_index)
    xf = wb.xf_list[xfx]

    # 字体颜色
    font_color = wb.font_list[xf.font_index].colour_index
    # 背景颜色
    bg_color = xf.background.pattern_colour_index

    return font_color, bg_color

需要注意的是，使用 xlrd 读取单元格的样式，打开工作簿的时候需要显式定义 formatting_info = True，否则会抛出异常。

# 注意：必须设置formatting_info=True，才能正常获取属性
wb = xlrd.open_workbook(file_path, formatting_info=True)
sheet = wb.sheet_by_index(0

6. 最后

搭配使用 xlrd、xlwt，基本上能完成大部分的工作，对于一些复杂的功能，比如：复制、分割、筛选等功能，可以用上 xlutils 这个依赖库。需要指出的是，这个组合对 xlsx 的兼容性不太好；如果需要操作 xlsx 文件，需要先转为 xls，然后再进行。

——热门课程推荐：

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

索引数据分析数据类型人工智能 python 大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇《羞羞的铁拳》表现精彩的艾伦，甘做十几年配角，原因是?

下一篇分析5万多场英雄联盟比赛，教你如何轻松用python预测胜负

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

聊聊python 办公自动化之 Excel（上）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载