作者:俊欣
来源:关于数据分析与可视化
相信大家都用在Excel当中使用过数据透视表(一种可以对数据动态排布并且分类汇总的表格格式),也体验过它的强大功能,在Pandas模块当中被称作是pivot_table,今天小编就和大家来详细聊聊该函数的主要用途。
那我们第一步仍然是导入模块并且来读取数据,数据集是北美咖啡的销售数据,包括了咖啡的品种、销售的地区、销售的利润和成本、销量以及日期等等
import pandas as pd def load_data(): return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])
那小编这里将读取数据封装成了一个自定义的函数,读者也可以根据自己的习惯来进行数据的读取
df = load_data() df.head()
output
通过调用info()函数先来对数据集有一个大致的了解
df.info()
output
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4248 entries, 0 to 4247 Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 order_date 4248 non-null datetime64[ns] 1 market 4248 non-null object 2 region 4248 non-null object 3 product_category 4248 non-null object 4 product 4248 non-null object 5 cost 4248 non-null int64 6 inventory 4248 non-null int64 7 net_profit 4248 non-null int64 8 sales 4248 non-null int64
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 298.8+ KB
在pivot_table函数当中最重要的四个参数分别是index、values、columns以及aggfunc,其中每个数据透视表都必须要有一个index,例如我们想看每个地区咖啡的销售数据,就将“region”设置为index
df.pivot_table(index='region')
output
当然我们还可以更加细致一点,查看每个地区中不同咖啡种类的销售数据,因此在索引中我们引用“region”以及“product_category”两个,代码如下
df.pivot_table(index=['region', 'product_category'])
output
上面的案例当中,我们以地区“region”为索引看到了各项销售指标,当中有成本、库存、净利润以及销量这个4个指标的数据,那要是我们想要单独拎出某一个指标来看的话,代码如下所示
df.pivot_table(index=['region'], values=['sales'])
output
这也就是我们上面提到的values,在上面的案例当中我们就单独拎出了“销量”这一指标,又或者我们想要看一下净利润,代码如下
df.pivot_table(index=['region'], values=['net_profit'])
output
另外我们也提到了aggfunc,可以设置我们对数据聚合时进行的函数操作,通常情况下,默认的都是求平均数,这里我们也可以指定例如去计算总数,
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum')
output
或者我们也可以这么来写
df.pivot_table(index=['region'], values=['sales'], aggfunc={ 'sales': 'sum' })
当然我们要是觉得只有一个聚合函数可能还不够,我们可以多来添加几个
df.pivot_table(index=['region'], values=['sales'], aggfunc=['sum', 'count'])
output
剩下最后的一个关键参数columns类似于之前提到的index用来设置列层次的字段,当然它并不是一个必要的参数,例如
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum', columns=['product_category'])
output
在“列”方向上表示每种咖啡在每个地区的销量总和,要是我们不调用columns参数,而是统一作为index索引的话,代码如下
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
同时我们看到当中存在着一些缺失值,我们可以选择将这些缺失值替换掉
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
我们再来做几组练习,我们除了想要知道销量之外还想知道各个品种的咖啡在每个地区的成本如何,我们在values当中添加“cost”的字段,代码如下
df.pivot_table(index=['region'], values=['sales', 'cost'], aggfunc='sum', columns=['product_category'], fill_value=0)
output
同时我们还能够计算出总量,通过调用margin这个参数
df.pivot_table(index=['region', 'product_category'], values=['sales', 'cost'], aggfunc='sum', fill_value=0, margins=True)
output
最后的最后,我们调用pivot_table函数来制作一个2010年度咖啡销售的销量年报,代码如下
month_gp = pd.Grouper(key='order_date',freq='M')
cond = df["order_date"].dt.year == 2010 df[cond].pivot_table(index=['region','product_category'],
columns=[month_gp], values=['sales'],
aggfunc=['sum'])
output
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14