字符串长度函数:
length():返回向量元素的个数、矩阵元素的个数、数据框字段数量和列表元素的个数。
nchar(): 返回每一个字符值的字符数
cat()函数可以显示和连接字符串。该函数可以将字符值合并,并直接打印在屏幕中, 该函数成为在函数内部打印消息或警告信息的理想函数,而paste()函数和print()函数输出效果不理想。
发现,用print函数和paste函数在屏幕中输出带引号的字符串,总觉得有点别扭。
cat()函数中使用'\n'参数为换行符,确保改行的完整信息。'\t'为4字节的空格
cat()函数的参数fill可用于输出字符串中自动插入换行符,如果fill设置为TRUE,则系统的width值将被用来确定行宽, 如果fill参数为一个给定的数值,则输出结果的宽度将使用该值。
cat()函数中有一个参数为file,该参数允许输出结果指定到一个文件中。
paste()函数可以无限量的连接字符串,当把一个 字符向量 传递给paste()函数时,通常使用 collapse=参数 ,因为sep=参数对输入的向量不起作用
substring()或substr()函数获取字符串的子串,first(start)和last(stop)参数可以是一个数值,也可以是一个向量。
在应用中强烈建议使用substring()函数,该函数更为稳定
为了找到字符串中一个特定字符的位置,首先需要将字符串转换为字符向量(可以向substr函数的first和last参数传递向量来完成),然后通过which函数确定某个字符的位置。
正则表达式是一种表达字符值模式的方法,可以被用来提取字符串的一部分或以某种方式修改这些字符串。这里主要讲解R中常用的6个正则表达式函数(split,grep,regexpr,gregexpr,sub,gsub)
strsplit()函数可以使用字符串或正则表达式将字符串划分为更小的段,该函数的第一个参数是要拆分的字符串,第二个参数是用来将字符串分解成多个部分的字符值或正则表达式。该函数将分解后的子段返回到列表中。
语法如下:
strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
应用:
发现,parts1中会单独把空格当做值列出来。
个人觉得这个方法还是繁琐了点,还请各位看官提出更方便简洁的方法~谢谢啦。
strsplit()函数还可以接受正则表达式来决定在哪里拆分字符串,例如,一个字符串中含有多个空格,当使用空格作为拆分符时,就可能返回多余的空字符串。
grep()函数接受一个正则表达式和一个字符串或字符串向量,并返回由正则表达式匹配的字符串元素的索引。 如果参数value=TRUE,则它将返回与正则表达式匹配的实际字符串而不是其索引号。
语法如下:其中x必须为字符向量
grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,fixed = FALSE, useBytes = FALSE, invert = FALSE)
应用:该函数的一个重要用途是依据名称从一个数据框中提取一组变量
如在LifeCycleSavings数据框中,存在两个变量,都是以'pop'开头,我们可以使用grep函数找到这两个变量
返回以某个字符开头或某个字符结尾的字符串
要查找的正则表达式不考虑输入的大小写时,可以使用ignor.case=TRUE
很显然第二个字符'work doggedly'就不是我们所期望的结果,为解决该问题,可以使用 转义尖括号(\\<dog\\>) 限制字符串被空格、标点符号或起始行或结束行包围情况下的匹配。
如果传递给grep的正则表达式与其任何输入都不匹配,grep将返回一个空的数值型向量, 换句话说,该函数可以用来测试一个正则表达式是否存在。
regexpr()和gregexpr()函数可用于准确指出和提取字符串中与正则表达式相匹配的部分,这两个函数的输出为一个向量和列表,由所发现的正则表达式的起始点组成;如果没有匹配发生,返回值为-1,此外,match.length属性与起始点向量结合, 提供字符匹配的准确信息。regexpr函数只提供其输入字符串中第一个匹配的有关信息,而gregexpr函数返回所有匹配的信息。
语法如下:
regexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
gregexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
应用:
提取出匹配的字符
在这里使用另一个处理输出的函数mapply,该函数的第一个参数为函数, 接受多个参数,其余参数是长度相同的向量,其元素将逐一传递到函数中。
sub()和gsub()函数是基于正则表达式的文字替换,它们均接受正则表达式的输入参数。
sub()函数只改变第一次出现的正则表达式,而gsub()函数可以替换所有满足正则表达式的字符。
这两个函数的一个重要用途涉及到数值型数据中,这些数据从网页或财务报表中读入,并可能包含逗号或美元符号。
语法:
sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,fixed = FALSE, useBytes = FALSE)
应用:
大致正则表达式的语法和案例就介绍到这里,接下来对正则表达式做一些总结性的工作 (参考《R语言数据操作》这本书):
1、反斜杠\字符用在正则表达式中,表示正则表达式中某些具体特殊含义的字符应该作为普通的字符来对待。在R中,当遇到特殊字符时(\t,\n等)需要输入两个反斜杠。
2、正则表达式由3个部分组成:
a、原意符,它是由一个单一的字符匹配
b、字符类,它可以与许多字符值的任何一个相匹配
c、修正符,对原意符和字符类进行操作
3、由于许多表点符号是正则表达式的修正符,必须始终加一个反斜杠保留其原意:
. ^ $ + ? * ( ) [ ] { } | \
4、要形成一个字符类,使用方括号[]把需要匹配的字符括起来。如需要创建一个由a,b或3组成的字符类,可用[ab3]表示。破折号可用在字符类内部来表示值域[a-z],[A-Z],[0-9]
5、如果在R中输入一个正则表达式,是使用双引号的字符串,就需要双反斜杠,如果使用readline输入表达式,只需要一个反斜杠。
6、R中正则表达式的修正符:
修正符 含义
^ 定位表达式,目标开始
$ 定位表达式,目标结束
. 匹配换行符以外的任何单个字符
| 分割不同的模式
( ) 将相同模式放在一起
* 匹配前面的实体出现0次或更多次
? 匹配前面的实体出现0次或1次
+ 匹配前面的实体出现1次或更多次
{n} 匹配前面的实体精确地出现n次
{n,} 匹配前面的实体至少出现n次
{n.m} 匹配出现次数在n和m次之间
总结:常用的字符串函数
length()
nchar()
cat()
paste()
substring()
strsplit()
grep()
regexpr()
gregexpr()
sub()
gsub()
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14