pandas模块的数据结构有哪几种?
2020-07-06
4211
pandas 是 Python 的外部模块,基于NumPy ,是为了解决数据分析任务而创建的,对数据挖掘前期数据的处理工作十分有用。pandas提供了大量能使我们快速便捷地处理数据的函数和方法,而且 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas模块的数据结构主要有两:1、Series ;2、DataFrame ,下面将分别从这两方面介绍:
Series
Series 是 pandas 提供的一种数据类型,你可以把它想象成 Excel 的一行或一列。
构建Series:ser_obj = pd.Series(range(10))
由索引和数据组成(索引在左<自动创建的>,数据在右)。
获取数据和索引:ser_obj.index; ser_obj.values
预览数据: ser_obj.head(n);ser_obj.tail(n)
DateFrame
DataFrame 是 pandas 提供的一种数据类型,你可以把它想象成 Excel 的表格。
获取列数据:df_obj[col_idx]或df_obj.col_idx
增加列数据:df_obj[new_col_idx] = data
删除列:del df_obj[col_idx]
按值排序:sort_values(by = “label_name”)