Python数据分析基础入门(一)：获取数据源

2020-03-27

作者 | CDA数据分析师

俗话说，巧妇难为无米之炊。不管你厨艺有多好，如果没有食材，也做不出香甜可口的饭菜来，所以想要做出饭菜来，首先要做的就是要买米买菜。而数据分析就好比是做饭，首先也应该是准备食材，也就是获取数据源。

一、导入外部数据

导入数据主要用到的是Pandas里的read_x()方法，x表示待导入文件的格式。

1、导入.xlsx文件

在Excel中导入.xlsx格式的文件时很简单的，双击打开就可以了。在Python中导入.xlsx文件的是read_excel()这种方法。

（1）基本导入

在导入文件的时候首先要指定文件的路径，也就是这个文件在电脑中的哪个文件夹下存放着。

电脑中的文件路径默认是使用\的，这个时候需要在路径前面加一个r（转义符）避免路径里面的\被转义。也可以不加转义符r，但是需要把路径里面所有的\转换成/，这个规则在导入其他格式文件的时候也是一样的，我们一般会选择在路径前面加转义符r。

（2）指定导入哪个Sheet

.xlsx格式的文件可以有很多个Sheet，你可以通过设定sheet_name参数来指定要导入哪个Sheet的文件。

除了可以指定具体Sheet的名字，还可以传入Sheet的顺序，从0开始计数。

如果不指定sheet_name参数的时候，那么默认导入的都是第一个sheet的文件。

（3）指定行索引

将本地文件导入DataFrame的时候，行索引使用的是从0 开始的默认索引，可以通过设置index_col参数来设置。

index_col表示用.xlsx文件中的第几列做行索引，从0 开始计数。

（4）指定列索引

将本地文件导入DataFrame的时候，默认使用的是源数据表的第一行作为列索引，也可以通过设置header参数来设置列索引。header参数值默认为0，即用第一行作为列索引；也可以是其他行，只需要传入具体的那一行即可；也可以使用默认从0开始的数作为列索引。

（5）指定导入列

有的时候本地文件的列数太多，而我们又不需要那么多列的时候，我们就可以通过设定usecols参数来指定要导入的列。

可以给usecols 参数具体的某个值，表示要导入第几列，同样是从0开始计数，也可以以列表的形式传入多个值，表示要传入哪些列。

2、导入.csv文件

在Excel中导入.csv格式的文件和打开.xlsx格式的问价是一样的，双击即可。而在Python中导入.csv问价用的方法是read_csv()。

（1）直接导入

只需要指明文件路径即可。

（2）指明分隔符号

在Excel和DataFrame中的数据都是很规整的排列的，这都是工具在后台根据某条规则进行切分的。read_csv()默认文件中的数据都是以逗号分开的，但是有的文件不是用逗号分开的，这个时候就需要人为指定分隔符号，否则就会报错。

新建一个以空格作为分隔符号的文件，如下图所示：

如果用默认的逗号作为分隔符号，看看导入的数是什么样的。

我们看到所有的数据还是一个整体，并没有被分开，把分隔符号换成空格以后再看看效果：

使用正确的分隔符号以后，数据被规整的分好了。常见的分隔符号除了逗号、空格，还有制表符（\t）。

（3）指明读取行数

假设现在有一个几百兆的文件，你想了解一下这个文件里有哪些数据，那么这个时候你就没必要把全部数据都导入，你只要看到前面几行即可，因此只要设置nrows参数即可。

（4）指定编码格式

Python用得比较多的两种编码格式是UTF-8和gbk，默认编码格式是UTF-8。我们要根据导入文件本身的编码格式进行设置，通过设置参数encoding来设置导入的编码格式。有的时候两个文件看起来一样，它们的文件名一样，格式一样，但是如果它们的编码格式不一样，也是不一样的文件

比如当你把一个Excel文件另存为时会出现两个选项，虽然都是.csv文件，但是这两种格式代表两种不同的文件，如下图所示:

如果CSV UTF-8（逗号分隔）（*.csv）格式的文件，那么导入的时候就需要加encoding参数。

你也可以不加encoding参数，因为Python默认的编码格式就是UTF-8。

如果CSV（逗号分隔）（*.csv）格式的文件，那么在导入的时候就需要把编码格式更改为gbk，如果使用UTF-8就会报错。

（5）engine指定

当文件路径或者文件名中包含中文时，如果还用上面的导入方式就会报错。

这个时候我们就可以通过设置engine参数来消除这个错误。这个错误产生的原因是当调用read_csv()方法时，默认使用C语言作为解析语言，我们只需要把默认值C更改为Python就可以了，如果文件格式是CSV UTF-8（逗号分隔）（*.csv），那么编码格式也需要跟着变为utf-8-sig，如果文件格式是CSV（逗号分隔）（*.csv）格式，对应的编码格式则为gbk。