京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SAS正则式之prxsubstr 以及prxnext
今天介绍的正则式中的prxsubstr函数以及prxnesth函数。
这两个函数需要配合call使用,生成start以及length两个变量以供后面的使用。先介绍基本的参数。
Call prxsubtr(pattern_id,string,strat,length)
pattern_id:跟prxmatch的用法一样,需要填入prxparse函数规定的字符形式,需要规定一个变量储存。譬如re=prxparse(‘\/d/d/d\’)即搜索任意三个数字。
String:填入的是你要搜索的目标,即你在哪里搜索上面的任意三个数字;
Start:这参数不用填,这个数字是运行之后会返回的变量,即在搜索目标中的起点位置
Length:跟start的意思一样,但是如果是已经知道位数的这个参数就没上面意义了,如果对于re=prxparse(‘\/d+\’)就有意义啦。
那么趁热打铁,来个例子;
datazipcode;
if_n_=1thenre=prxparse("/ \d{5}(-\d{4})?/");
retainre;
inputstring$80.;
lengthzip_code$10.;
callprxsubstr(re,string,start,length);
ifstart gt0thendo;
zip_code=substr(string,start+1,length+1);
output;
end;
datalines;
john smith 12 broad street flaemington, nj 08822
philip judson apt #1,building 7 777 route 730 kerrville, tx 78028
dr.roger alan 44 commonwealth ave. boston, ma 02116-7364
;
procprintdata=zipcodenoobs;
title"listing of data set zipcode";
run;
结果:
代码中寻找的prxparse("/ \d{5}(-\d{4})?/");在任意五个数字之前有一个空格,看清楚哈,\d{5}前面是有一个空格的,然后不知道后面是否接着“-\d{4}”的数字串。这里的substr(string,start+1,length+1)为什么要加1呢,因为有空格的存在,空格也占一个字符。估计这么一个简单的例子,也能知道prxsubstr的用法了。
接下来介绍的是prxnest这个函数。
Call prxnext(pattern_id,start,stop,position,length)
pattern_id:跟上面的那个prxsubstr一样填的是prxparse返回的搜索的目标;
start:就是你想在目标变量中那个位置开始搜索;
stop:就是你想在目标变量中的那个位置结束搜索。
Position:发现目标字符串的开始位置,所以这里的start跟之前的start是不一样的,要记住。
Length:这个就跟上面的prxsubstr的length一样,可以参照上面的。
那现在话不多说,直接上个例子!!
datafind_num;
if_n_=1thenret=prxparse("/\d+/");
retainret;
inputstring$40.;
start=1;
stop=length(string);
callprxnext (ret,start,stop,string,position,LENGTH);
ARRAYX[5];
DOI=1TO5WHILE(POSITION GT0);
X[I]=INPUT(SUBSTR(STRING,position,length),9.);
callprxnext(ret,start,stop,string,position,length);
end;
keepx1-x5 string;
datalines;
this 45 line 98 has 3 numbers
none here
12 34 78 90
;
procprintdata=find_numnoobs;
title"listing of data set find_num";
run;
结果是:
这个过程就是把string中全部的数字的部分提取出来,并赋予给x1-x5,这个就是涉及到你要生成多少个xi的问题,建议看下最长的那个观测能生成的数字个数,就设置i等于多少。这里眼神一下,譬如你先有份数据是什么“2016年12月5号,在麦当来消费56块钱”,你这时候需要提取这个时间以及金额就可以运用这个过程啦。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10