python数据清洗时,经常用到的工具有哪几种?
2020-07-06
2829
数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步,下面小编整理了几种常用的python数据清洗工具,希望对大家有所帮助。
目前在python中, numpy和pandas是最主流的数据清洗工具,Numpy中的向量化运算使得数据处理变得高效,Pandas提供了大量数据清洗的高效方法,在python数据清洗中,尽可能多的使用numpy和pandas这两种工具,提高数据清洗的效率。
一、Numpy
1 Numpy常用数据结构
Numpy中常用的数据结构是ndarray格式
使用array函数创建,语法格式为array(列表或元组)
可以使用其他函数例如arange、linspace、zeros等创建
2.Numpy常用数据清洗函数
排序函数
数据的搜索
sort函数: 从小到大进行排序
argsort函数: 返回的是数据中, 从小到大的索引值
二、Pandas
1.Pandas常用数据结构series和方法
•通过pandas.Series来创建Series数据结构
•pandas.Series(data,index,dtype,name)
•上述参数中,data可以为列表,array或者dict
•上述参数中, index表示索引,必须与数据同长度,name代表对象的名称
2.series和dataframe常用方法
values:返回对象所有元素的值
index:返回行索引
dtypes:返回元素的数据类型
shape:返回对象数据形状
ndim:返回对象的维度
size:返回对象的个数
columns:返回列标签(只针对dataframe数据结构)