cda

数字化人才认证

您的位置:首页 > 大数据时代 > python数据清洗时,经常用到的工具有哪几种?

python数据清洗时,经常用到的工具有哪几种?

2020-07-06

数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步,下面小编整理了几种常用的python数据清洗工具,希望对大家有所帮助。

目前在python中, numpypandas是最主流的数据清洗工具,Numpy中的向量化运算使得数据处理变得高效,Pandas提供了大量数据清洗的高效方法,在python数据清洗中,尽可能多的使用numpypandas这两种工具,提高数据清洗的效率。

一、Numpy

1 Numpy常用数据结构

Numpy中常用的数据结构是ndarray格式

使用array函数创建,语法格式为array(列表或元组)

可以使用其他函数例如arange、linspace、zeros等创建

2.Numpy常用数据清洗函数

排序函数

数据的搜索

sort函数: 从小到大进行排序

argsort函数: 返回的是数据中, 从小到大的索引值

二、Pandas

1.Pandas常用数据结构series和方法

•通过pandas.Series来创建Series数据结构

pandas.Series(data,index,dtype,name)

•上述参数中,data可以为列表,array或者dict

•上述参数中, index表示索引,必须与数据同长度,name代表对象的名称

2.series和dataframe常用方法

values:返回对象所有元素的值

index:返回行索引

dtypes:返回元素的数据类型

shape:返回对象数据形状

ndim:返回对象的维度

size:返回对象的个数

columns:返回列标签(只针对dataframe数据结构)

完 谢谢观看

分享
收藏

OK