把数据输入R语言后，如何进行简单的操作(二)-CDA数据分析师官网

把数据输入R语言后，如何进行简单的操作(二)

2020-09-11

先回忆一下之前用到的例子。

将其输入R语言中：

age <- c(25, 34, 59, 60, 20) #患者年龄

type <- c(1, 2, 2, 2, 1) #糖尿病类型

status <- c("poor", "improved", "excellent", "poor", "excellent") #病情

comorbidity<- c(TRUE, FALSE, FALSE, TRUE, FALSE) #出现并发症

mydata <- data.frame(age, type, status, comorbidity) #将数据框命名为mydata

查看mydata：

mydata

## age type status comorbidity

## 1 25 1 poor TRUE

## 2 34 2 improved FALSE

## 3 59 2 excellent FALSE

## 4 60 2 poor TRUE

## 5 20 1 excellent FALSE

接下来我们就以mydata为例，介绍一下如何对数据框进行简单的操作。

了解一个数据框

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

面对数据，第一步就是要了解它有多少条记录(或多少个case/ observation )，有多少个变量（variable）、分别是哪些。

## 获取数据框的维度（几行、几列）

dim(mydata)

[1] 5 4

## 查看数据框中的所有变量名（列名）

names(mydata)

[1] "age" "type" "status" "comorbidity"

## 查看数据框的整体结构（维度、变量名、数据类型、数据内容）

str(mydata)

'data.frame': 5 obs. of 4 variables:

$ age : num 25 34 59 60 20

$ type : num 1 2 2 2 1

$ status : Factor w/ 3 levels "excellent","improved",..: 3 2 1 3 1

$ comorbidity: logi TRUE FALSE FALSE TRUE FALSE

如何提取数据框中的行和列

2种方法：

1. 数据框后加[ , ]。逗号前是行，逗号后是列。如果没有指定是哪一行或哪一列，默认为所有行/列。

## 提取第一行

mydata[1,]

age type status comorbidity

1 25 1 poor TRUE

## 提取第一列

mydata[,1]

[1] 25 34 59 60 2

## 提取某几行或某几列

## 提取1~3行

mydata[1:3,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

## 提取第1和第5行的1、2、4列

mydata[c(1,5),c(1,2,4)]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

## 变量很多时，用列名来提取更方便

mydata[c(1,5),c('age','type','comorbidity')]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

2. 另一种提取列的方法是，在数据框后加 $，然后再加要提取的列名。

## 提取age这一列

mydata$age

[1] 25 34 59 60 20

获取满足特定条件的数据

1.提取满足某一个条件的数据。

例如，在病情status这个变量中，有poor, improved 和 excellent这三类，现在想获取病情最稳定、恢复最好的患者信息。也就是说，我们希望获得status为excellent的病例，即选择满足mydata$status=='excellent'的行，以及被选中的行的每一列。

mydata[mydata$status=='excellent',]

age type status comorbidity

3 59 2 excellent FALSE

5 20 1 excellent FALSE

此外，还可进一步提取，例如，想获得病情status为excellent的患者中，并发症comorbidity的情况。换句话说，就是，想提取comorbidity的信息，但这些信息必须是病情最稳定的几位患者的。

## 具体操作如下：先提取comorbidity,再设置status的条件

输入语句：mydata$comorbidity[mydata$status=='excellent']

[1] FALSE FALSE

2.提取满足多个条件的数据。

例如，想提取年龄age大于等于20岁，且小于35岁的病例。在R中，用&这个符号表达『并且』。用一个小竖杠 | 表达『或者』。

mydata[mydata$age>=20 & mydata$age<35,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

3.subset()函数，既可用来选择行，也可选择列，当然也可以用来提取满足特定条件的内容。

# 选择行/满足特定条件的行

subset(mydata, mydata$age>=20 & mydata$age<35)

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

# 选择列

subset(mydata, select = c('age','status'))

age status

1 25 poor

2 34 improved

3 59 excellent

4 60 poor

5 20 excellent

有缺失数据怎么办

由于原来的数据框中没有缺失数据，这里我们来构造一个新的记录(observation)，让这个记录中全部都是缺失值。

mydata[6,] <- NA

mydata

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

6 <NA> <NA> <NA> <NA>

1. 只保留无缺失的observations。如果希望将无缺失版本的数据框保存起来，要记得把na.omit(mydata)的结果赋值给新的对象。

mydata_no_NA <- na.omit(mydata)

mydata_no_NA

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

2. 查看哪个数据为缺失值。需要用到2个函数，这里提醒大家，如果R的语句太复杂，那么可以先从最中心的部分读起，一层括号一层括号地向外扩展。

例如，下面的语句，可以先看最中间的is.na(mydata$age)，意思是对age这列中的每个数据进行一次检验，返回『是否为缺失值』的逻辑型结果，即TRUE 或者 FALSE。再看which()这个函数，它返回的是前面这一串TRUE和FALSE中，出现TRUE的顺序号。

从下面的结果我们可以看到，只有第6个数据是TRUE。

which(is.na(mydata$age))

[1] 6

is.na(mydata$age)

[1] FALSE FALSE FALSE FALSE FALSE TRUE

以上就是对数据框的一些简单操作，但是在数据处理中非常实用。下一讲我们继续介绍更多数据处理的内容。

线性回归缺失值数据处理数据类型 R语言

数据分析咨询请扫描二维码

上一篇python新手如何度过小白期，不再当菜鸟程序员？

下一篇突发！CPA或取消北京考区惹争议，曾经“飘香”的证书还香吗？

把数据输入R语言后，如何进行简单的操作(二)

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...