2020-08-13
阅读量:
856
常用查看/选取数据的方法
在参数说明中DataFrame数据格式的后续简称df,Series数据格式的简称s。pd.DataFrame官方文档
属性 | 描述 |
---|---|
df.head(n) | 查看DataFrame对象的前n行 |
df.tail(n) | 查看DataFrame对象的最后n行 |
df.shape | 查看数据的行列数各是多少 |
df.info() | 查看索引、数据类型和内存信息 |
df.describe(percentiles=[.05, .25, .75, .95]) | 查看数值型列的汇总统计,返回计数、均值、标准差、最小最大值、25%50%75%分位数,percentiles0.05,0.95分位数 |
df.unique() | 快速查看数据列有哪些分类内容,类似groupby |
s.value_counts(dropna=False) | 查看Series对象的唯一值和计数 |
df.apply(pd.Series.value_counts) | 查看DataFrame对象中每一列的唯一值和计数 |
df.sum() | 返回所有列的求和值 |
df.mean() | 返回所有列的均值 |
df.corr() | 返回列与列之间的相关系数 |
df.count() | 返回每一列中的非空值的个数 |
df.max() | 返回每一列的最大值 |
df.min | 返回每一列的最小值 |
df.median() | 返回每一列的中位数 |
df.std() | 返回每一列的标准差 |
选择数据数据常用方法
属性 | 描述 |
---|---|
df[col] | 根据列名,并以Series的形式返回列 |
df[[col1, col2]] | 以DataFrame形式返回多列 |
df.loc[:3,‘a’] | 选取a列,选择特定行的数据 ,返回series格式 |
df.loc[:3,[‘a’]] | 基于a列,选择特定行的数据,返回DataFrame格式 |
df.loc[1:2,[‘a’,‘b’]] & df.loc[1:2,‘a’:‘b’] | 基于列label,可选取特定行(根据行index) |
df.iloc[1:3, [1, 2]] & df.iloc[1:3, 1: 3] | 基于行/列的position |
df.at[3, ‘tip’] | 根据指定行index及列label,快速定位DataFrame的元素 |
df.iat[3, 1] | 与at类似,不同的是根据position来定位的 |
df.iloc[0,:] | 返回第一行,[x,y]x为行,y为列,:代表所有 |
df.iloc[0,0] | 返回第一列的第一个元素,直接写入数字代表单点位置 |
s.iloc[0] | 按位置选取数据 |
s.loc[‘index_one’] | 按索引选取数据/列名 |






评论(0)


暂无数据