热线电话：13121318867

如何将杂乱的数据整理好（一）数据完整性判断

2021-02-05

来源：丁点帮你

作者：丁点helper

在前面的文章中，我们跟大家一起学习了R中的数据导入、基本的操作方法、描述性统计等内容。

这其中的很多操作都是针对格式和内容都完好的数据而言的。但在实际工作中，我们收集到的数据往往不那么完美，需要先进行一番清理。今天开始，我们来学习如何将杂乱的数据整理得井井有条。

示例数据导入

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

示例数据是某高校教师对本班学生的调查结果，为方便练习，大家可先下载：

文件名：survey.csv

链接: https://pan.baidu.com/s/1XZgdyb59wPyWy6wp_hmoQw

密码: 5lyw

接下来导入数据至R中：

survey <- read.csv("//Users//Desktop//titanic.csv"， header = TRUE)

用下面的语句来了解一下这个数据：

#数据有多少行多少列dim(survey)[1] 238 17#获取数据中的变量名称 names(survey) [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" [9] "Exercise" "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" [17] "Pulse"

可以知道，这项调查共涉及到238名同学，调查项目有17项。

数据清理第一步：有无缺失
多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

今天这篇文章只介绍如何对数据的完整性进行判断。

在survey这个数据库的238条记录中，如果某条记录中的17个变量都获取到了信息，不存在漏填的情况，那么认为这条记录是完整的。

1.用complete.cases()这个函数得到数据中的每条记录是否完整，其结果是一个逻辑型变量。

如下面的结果，survey这个数据的第一条记录（第一行）是完整的，而第232条记录是不完整的。

complete.cases(survey) [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [20] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [39] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [58] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [77] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE [96] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[115] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[134] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[153] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[172] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE[191] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[210] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[229] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE

2. 那么有多少条记录是完整的呢？根据下面的结果，答案是232条。

下面的语句中，which()的作用是得到逻辑型变量complete.cases(survey)中值为TRUE的顺序号。大家可以自行运行一下which(complete.cases(survey))这个语句，看看结果是什么。

所以最后用length()，可以得到共有多少条记录的完整性检验结果为TRUE。

length(which(complete.cases(survey)))[1] 232

3. 仅保留所有完整的记录，并生成一个新数据集。有两种方法：

# 仅保留complete.cases(survey) = TRUE的记录 survey_com <- survey[complete.cases(survey),] # 去掉有缺失情况的记录survey_com <- na.omit(survey)

4. 我们也可以看看有缺失的记录是哪些，来进一步考察数据的缺失规律。

survey_miss <- survey[!complete.cases(survey),] survey_miss

结果如下图：