我通常使用R来做统计,但我即将学习python和pandas以及numpy。
我有一个df,我创建自己包含不同的时间(以天为单位)。我提前计算了它们,一个开放日期和(在最后一个列中)一个数字给出了关于该集合的一些信息。
这是df的一部分。(DFT)
Freigabe Fauf Transport/Auslagerung Qualitätsprüfung Packen Auslieferung Gesamt Komp Werk
0 2018-11-29 1.0 27.0 2.0 2.0 31.0 0
1 2018-11-30 0.0 28.0 1.0 2.0 31.0 0
2 2018-06-05 1.0 9.0 7.0 1.0 17.0 1
现在我想把它分开,我用掩码来分隔帧中的几个月。
m1_mask = dft["Freigabe Fauf"].dt.month == 11
m1df1 = dft[m1_mask]
m2_mask = dft["Freigabe Fauf"].dt.month == 06
m2df2 = dft[m2_mask]
现在我有两个不同长度的不同数据帧。我想以列方式绘制时间。
例如,在一个箱线图中第一个和第二个df的“Gesamt”,看看“Gesamt”时间如何随时间变化。在RI中只使用了一个列表和默认的boxplot-function,因为R可以处理列表中不同长度的向量。
my_list = [m1df1["Gesamt"],m2df2["Gesamt"]]
这就是我在python中可以想象它但它不起作用的方式。我该怎么处理?
解决办法:df[['Gesamt']].groupby(df['Freigabe Fauf'].dt.month).boxplot()
输出:
(1)输出
或者,类似地,用seaborn:
import seaborn as sns
sns.set_style("whitegrid")
df['month'] = df['Freigabe Fauf'].dt.month
sns.boxplot(x="month", y='Gesamt', data=df)








暂无数据