R语言之数据结构
R语言拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框、列表、因子。
1.标量:标量是只包含一个元素的向量
1
2
3
|
> a <- 1; # 数值型
> b <- "China"; # 字符型
> c <- TRUE; # 逻辑型
|
2.向量:向量用于存储数值型、字符型或逻辑型数据的一维数组。通过c()函数来创建向量
1
2
3
|
> d <- c(1,2,3);
> e <- c("China","USA");
> f <- c(T,F,F,T);
|
3.矩阵(matrix):矩阵是一个二维数组,每个元素都拥有相同的模式(数值型、字符型、逻辑型),一般通过函数matrix()来创建矩阵
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) data:包含了矩阵的元素; nrow 和 ncol:用于指定矩阵的行数和列数; byrow=F:默认创建的矩阵按照列进行排列; dimnames:创建矩阵时可以设置行和列的名称(必须为列表形式);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
> m1 <- matrix(1:8,nrow=4)
#默认按列填充
> m1
[,1] [,2]
[1,] 1 5
[2,] 2 6
[3,] 3 7
[4,] 4 8
#设置byrow=T,将元素按照行进行填充
> m2 <- matrix(1:8,nrow=4,byrow=T)
> m2
[,1] [,2]
[1,] 1 2
[2,] 3 4
[3,] 5 6
[4,] 7 8
# 设置矩阵行和列的名称
> m3 <- matrix(1:8,nrow=4,byrow=T,dimnames=list(c("r1","r2","r3","r4"),c("c1","c2")))
> m3
c1 c2
r1 1 2
r2 3 4
r3 5 6
r4 7 8
|
4.数组(array):与矩阵类型,但是维度可以大于2,数组可以通过array()函数进行创建;数组中的数据也只能拥有一种模式(数据类型),如果数组中的数据有其他的数据类型,R会自动将所有数据转换为同一模式
array(data = NA, dim = length(data), dimnames = NULL) data:包含了数组中的数据; dim:是一个数值型的向量,给出了各个维度下标的最大值; dimnames:各个维度名称标签的列表;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
> arr <- array(1:24,dim=c(4,3,2))
> arr
, , 1
[,1] [,2] [,3]
[1,] 1 5 9
[2,] 2 6 10
[3,] 3 7 11
[4,] 4 8 12
, , 2
[,1] [,2] [,3]
[1,] 13 17 21
[2,] 14 18 22
[3,] 15 19 23
[4,] 16 20 24
|
5.数据框(data.frame):数据框类似于二维表格,包含行和列,是R中最常处理的数据结构。不同的列可以包含不同的模式,每一列数据的模式必须唯一;数据框可以通过函数data.frame()进行创建data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFactors = default.stringsAsFactors())row.names:设置数据框行的名称; check.rows:默认为FALSE,检查行的名称和数量是否一致; check.names:逻辑值,默认为TRUE,如果为TRUE,变量的名称不能够重复,如果重复,则R会自动进行转换以保证列名不同; stringsAsFactors :是否将字符串转换为因子(factor)类型,stringsAsFactors 默认为TRUE,即default.stringsAsFactors()的值为TRUE,将字符串转换为因子;
1
2
3
4
5
6
7
8
9
10
11
|
> g <- data.frame(a=c(1,2,3),a=c(4,5,6),row.names=c("n1","n2","n3"),check.names=T)
> g
a a.1
n1 1 4
n2 2 5
n3 3 6
> g["a.1"] #由于数据框g有重复列名a,因为设置了check.names=T,R内部会自动将第二列的列名a转换为a.1
a.1
n1 4
n2 5
n3 6
|
6.列表(list):是一个有序对象的集合,列表允许整合若干对象到单个对象名下,可以通过list()函数进行创建
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
> k <- list(d=5:9,e="China") # 创建列表k,包括d和e两个对象
> l <- list(title="mylist",a=1:3,b=matrix(1:8,nrow=2),c=c("one","two"),k) #创建列表l,l列表中包含了列表k(列表中也可以包含列表对象)
> l
$title
[1] "mylist"
$a
[1] 1 2 3
$b
[,1] [,2] [,3] [,4]
[1,] 1 3 5 7
[2,] 2 4 6 8
$c
[1] "one" "two"
[[5]]
[[5]]$d
[1] 5 6 7 8 9
[[5]]$e
[1] "China"
|
7.因子(factor):类别(名义型)变量和有序类别(有序型)变量在R中称为因子。因子型数据在计算机内部存储为整型数据,因子水平属性将每个整型数据映射到一个因子水平上。因为整型数据占的存储空间较少,因 此这种方式比字符串向量更节省存储空间。
factor(x = character(), levels, labels = levels, exclude = NA, ordered = is.ordered(x), nmax = NA) x:用于转换为因子的字符向量数据; levels:因子水平向量,因子型变量可以取得的所有值被称为因子水平; labels:字符型向量,labels与levels有相同的数量或者只有一个; excelude:生成水平时要去除的水平; ordered:默认为FALSE,设置为TRUE,表示有序型变量,用以确定levels 是否应该被视为有序的(按照给定的顺序); nmax: 设定水平数量的上限值
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
> x <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),ordered=T)
> x
[1] middle small big large
Levels: small < middle < big < large # R在输出有序因子时会显示因子水平的顺序
> y <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),ordered=T,labels=c(1,2,3,4))
> y
[1] 2 1 3 4
Levels: 1 < 2 < 3 < 4
> z <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),exclude=c("small","middle"))
> z
[1] <NA> <NA> big large # 由于去除了水平small和middle,所以原始数据中水平为small和middle的值输出为NA
Levels: big large
> x.integer <- unclass(x) # 通过移除因子x的类属性创建整型向量x.integer 注意此时因子x本身并没有发生变化
> x.integer
[1] 2 1 3 4
attr(,"levels")
[1] "small" "middle" "big" "large"
> class(x.integer)
[1] "integer"
|
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03