sas正则式之prxparse. Prxmatch-CDA数据分析师官网

热线电话：13121318867

sas正则式之prxparse. Prxmatch

2017-04-03

sas正则式之prxparse. Prxmatch

今天分享的是我这几天用到的正则式的一个小总结，这部分的内容因为比较多，所以会分成几篇文章分享。

其实我们在做数据的过程中老是会听到别人说，r处理数据比sas好用，但是在我理解里，看你先接触那个软件，你都很熟悉r了，你还会再花两三年去写sas吗？所以学软件，只要学的精，其实都是共通的，r能做的文本清洗的，sas也可以。但是我不是说你就不要去学r,我自己也会学R，在工作中也需要结合使用。只是希望你们不要对sas有偏见,毕竟我深爱sas胜过男朋友。

话太多了哈，毕竟白羊座嘛。上代码：

options compress=yes;

data dd;

input string$40.;

datalines;

我始终都抢不到2017年1月25号的票啊

今天是2017年1月23号

现在时间是9点17分

其实我很想我的妈咪

;

run;

data ss;

set dd;

if _n_=1 then ret=prxparse("/\我/");

retain ret;

position=prxmatch(ret,string);

run;

结果图如下：

Prxparse这个函数不能单独使用，都是和其他正则函数一起结合使用的，这个结果就不用看ret了，运行是pdv层面的事，我就不多说，这里要关注的prxmatch函数返回的关键字的位置。

prxmatch(ret,string)

ret填入的是prxparse返回的一个逻辑数，即0和1，以上面的例子为例，假设prxparse在变量string中没有找到“我”这个词，那么返回的0，反之返回1.你问我为什么上面的结果ret中的值是1，那是因为ret记录的只是第一条观测的ret的值，这个变量你就直接不看就行了。但是你要记住prxmatch是怎么跑的。即ret在要那条观测判断为1时，prxmatch就执行，在string中“我”的位置并返回。这里中文占两个字符哈。

这是一个简单的例子，现在具体介绍下常用的一个关键字的表述。

例如：

1、 Prxparse（”/\d\d\d/”）寻找任意的三个数字，这里要注意的是关键字必须用{“//”}圈起来。

2、 Prxparse（”/\d+/”）寻找一个以上的数字，可以是1个也可以是100个

3、 Prxparse（”/\w\w\w* /”）寻找两个以及两个以上的字符然后以空格分隔，*号后面有个空格，你再多看几眼。譬如你要寻找屁屁后者屁屁屁你就可以这么写Prxparse（”/\屁\屁\屁* /”）

4、 Prxparse（”/\w\w? + /”）寻找一个或者两个字符以一个空格或者多个空格分隔。看清楚哈，？后面是有空格的哈。这个总结一下，就是字符多的用*号，空格和数字多个用+号。

5、 Prxparse（”/(\w\w) +(\d) +/”）寻找一个两个字符之间与一个数字相隔一个或者多个空格的字符。注意，在正则式中，空格也算的，所以写的时候要小心。那这里举个栗子，就是譬如 “我是屁屁 2 ”那么就会找到：“屁屁 2 ”。

现在列出经常用到的关键字返回的数据类型：