Pandas数据处理介绍

wo56565

2019-04-16 阅读量: 784

Pandas数据处理介绍

面展示一些示例，以便你开始使用Pandas。这些示例取自现实世界的数据，数据上自然会有一些瑕疵。Pandas是受R数据框架概念启发形成的框架。

要从CSV文件中读取数据，请使用以下命令：

import pandas as pd

broken_df=pd.read_csv('data.csv')

要查看前三行，请使用：

broken_df[:3]

要选择列，请使用：

fixed_df['Column Header']

要绘制列，请使用：

fixed_df['Column Header'].plot()

要获取数据集中的最大值，请使用以下命令：

MaxValue=df['Births'].max() where Births is the column header

假设数据集中有另一列名为Name，Name的命令与最大值相关联。

MaxName=df['Names'][df['Births']==df['Births'].max()].values

在Pandas中还有许多其他方法，例如 sort、groupby 和 orderby，它们对于结构化数据的使用很有用。此外，Pandas还有一个现成的适配器，适用于MongoDB、Google Big Query等流行数据库。

接下来将展示一个与Pandas相关的复杂示例。在不同列值的X数据框中，查找root列分组的平均值。

for col in X.columns:

if col != 'root':

avgs = df.groupby([col,'root'], as_index=False)['floor'].aggregate(np.mean)

for i,row in avgs.iterrows():

k = row[col]

v = row['floor']

r = row['root']

X.loc[(X[col] == k) & (X['root'] == r), col] = v2.

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子