热线电话:13121318867

登录
2019-04-16 阅读量: 536
Pandas数据处理介绍

面展示一些示例,以便你开始使用Pandas。这些示例取自现实世界的数据,数据上自然会有一些瑕疵。Pandas是受R数据框架概念启发形成的框架。

要从CSV文件中读取数据,请使用以下命令:

import pandas as pd

broken_df=pd.read_csv('data.csv')

要查看前三行,请使用:

broken_df[:3]

要选择列,请使用:

fixed_df['Column Header']

要绘制列,请使用:

fixed_df['Column Header'].plot()

要获取数据集中的最大值,请使用以下命令:

MaxValue=df['Births'].max() where Births is the column header

假设数据集中有另一列名为Name,Name的命令与最大值相关联。

MaxName=df['Names'][df['Births']==df['Births'].max()].values

在Pandas中还有许多其他方法,例如 sort、groupby 和 orderby,它们对于结构化数据的使用很有用。此外,Pandas还有一个现成的适配器,适用于MongoDB、Google Big Query等流行数据库。

接下来将展示一个与Pandas相关的复杂示例。在不同列值的X数据框中,查找root列分组的平均值。

for col in X.columns:

if col != 'root':

avgs = df.groupby([col,'root'], as_index=False)['floor'].aggregate(np.mean)

for i,row in avgs.iterrows():

k = row[col]

v = row['floor']

r = row['root']

X.loc[(X[col] == k) & (X['root'] == r), col] = v2.

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子