啊啊啊啊啊吖

2018-11-04   阅读量: 597

数据分析师 R语言

R里的字符串

扫码加入数据分析学习群

每个十六进制数表示信息的一个字节: 48 是 H、 61 是 a 等。从十六进制数到字符的这种映

射称为编码,这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符,因

为它就是美国信息交换标准代码(American Standard Code for Information Interchange)的

缩写。

对于英语之外的其他语言,事情就变得更加复杂了。计算机发展的早期阶段有很多为非英

语字符进行编码的标准,它们之间甚至是相互矛盾的。要想正确表示一个字符串,不仅

需要知道它的值,还要知道其编码方式。例如, Latin1(即 ISO-8859-1, 用于西欧语言)

和 Latin2(即 ISO-8859-2,用于东欧语言)是两种常用的编码方式。字节 b1 在 Latin1

中表示“±”,但在 Latin2 中则表示“ą”!好在现在有一种几乎所有语言都支持的标准:

UTF-8。 UTF-8 可以为现在人类使用的所有字符进行编码,同时还支持很多特殊字符(如

表情符号!)。

readr 全面支持 UTF-8:当读取数据时,它假设数据是 UTF-8 编码的,并总是使用 UTF-8

编码写入数据。这是非常好的默认方式,但对于从不支持 UTF-8 的那些旧系统中产生的数

据则无能为力。遇到这种情况时,你的字符串打印出来就是一堆乱码。有时只有一两个字

符是乱码;有时则完全不知所云。例如:

x1 <- "El Ni\xf1o was particularly bad this year"
x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd"

要想解决这个问题,需要在 parse_character() 函数中设定编码方式:

parse_character(x1, locale = locale(encoding = "Latin1"))
#> [1] "El Niño was particularly bad this year"
parse_character(x2, locale = locale(encoding = "Shift-JIS"))
#> [1] "こんにちは"

如何才能找到正确的编码方式呢?如果足够幸运,那么编码方式可能就写在数据文档中。

遗憾的是这种情况非常罕见,因此 readr 提供了 guess_encoding() 函数来帮助你找出编码

方式。但这个函数并非万无一失,如果有大量文本(不像本例),效果就会更好,它确实

是一个良好的起点。希望试验几次后,你就能够找到正确的编码方式:

guess_encoding(charToRaw(x1))
#> encoding confidence
#> 1 ISO-8859-1 0.46
#> 2 ISO-8859-9 0.23
guess_encoding(charToRaw(x2))
#> encoding confidence
#> 1 KOI8-R 0.42

guess_encoding() 的第一个参数可以是一个文件路径,也可以是一个原始向量(适用于字

符串已经在 R 中的情况),就像本示例一样。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 5 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子