热线电话:13121318867

登录
2019-03-11 阅读量: 891
如何在mpl和pandas的箱线图中绘制不同长度的数据

我通常使用R来做统计,但我即将学习python和pandas以及numpy。

我有一个df,我创建自己包含不同的时间(以天为单位)。我提前计算了它们,一个开放日期和(在最后一个列中)一个数字给出了关于该集合的一些信息。

这是df的一部分。(DFT)

Freigabe Fauf Transport/Auslagerung Qualitätsprüfung Packen Auslieferung Gesamt Komp Werk

0 2018-11-29 1.0 27.0 2.0 2.0 31.0 0

1 2018-11-30 0.0 28.0 1.0 2.0 31.0 0

2 2018-06-05 1.0 9.0 7.0 1.0 17.0 1

现在我想把它分开,我用掩码来分隔帧中的几个月。

m1_mask = dft["Freigabe Fauf"].dt.month == 11

m1df1 = dft[m1_mask]

m2_mask = dft["Freigabe Fauf"].dt.month == 06

m2df2 = dft[m2_mask]

现在我有两个不同长度的不同数据帧。我想以列方式绘制时间。

例如,在一个箱线图中第一个和第二个df的“Gesamt”,看看“Gesamt”时间如何随时间变化。在RI中只使用了一个列表和默认的boxplot-function,因为R可以处理列表中不同长度的向量。

my_list = [m1df1["Gesamt"],m2df2["Gesamt"]]

这就是我在python中可以想象它但它不起作用的方式。我该怎么处理?

解决办法:df[['Gesamt']].groupby(df['Freigabe Fauf'].dt.month).boxplot()

输出:

(1)输出

或者,类似地,用seaborn:

import seaborn as sns

sns.set_style("whitegrid")

df['month'] = df['Freigabe Fauf'].dt.month

sns.boxplot(x="month", y='Gesamt', data=df)

0.0000
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子