面展示一些示例,以便你开始使用Pandas。这些示例取自现实世界的数据,数据上自然会有一些瑕疵。Pandas是受R数据框架概念启发形成的框架。
要从CSV文件中读取数据,请使用以下命令:
import pandas as pd
broken_df=pd.read_csv('data.csv')
要查看前三行,请使用:
broken_df[:3]
要选择列,请使用:
fixed_df['Column Header']
要绘制列,请使用:
fixed_df['Column Header'].plot()
要获取数据集中的最大值,请使用以下命令:
MaxValue=df['Births'].max() where Births is the column header
假设数据集中有另一列名为Name,Name的命令与最大值相关联。
MaxName=df['Names'][df['Births']==df['Births'].max()].values
在Pandas中还有许多其他方法,例如 sort、groupby 和 orderby,它们对于结构化数据的使用很有用。此外,Pandas还有一个现成的适配器,适用于MongoDB、Google Big Query等流行数据库。
接下来将展示一个与Pandas相关的复杂示例。在不同列值的X数据框中,查找root列分组的平均值。
for col in X.columns:
if col != 'root':
avgs = df.groupby([col,'root'], as_index=False)['floor'].aggregate(np.mean)
for i,row in avgs.iterrows():
k = row[col]
v = row['floor']
r = row['root']
X.loc[(X[col] == k) & (X['root'] == r), col] = v2.








暂无数据