用SAS进行数据挖掘:异常值检测_数据分析师考试
所谓异常值,设置一个变量的值非常极端或者出现的频次非常的低。
1)数值型变量异常值检测
数值型的变量异常值检测可以通过PROC UNIVARIATE过程来完成
代码如下:
PROC UNIVARIATE DATA=IREAD.DA_FIN_200909;
VAR _NUMERIC_; RUN; |
然后查看每个变量的分位数表,分析哪些变量可能存在异常的情况。
2)字符型变量异常值检测
字符型的变量异常值检测可以通过PROC FREQ过程来完成
代码如下:
PROC FREQ DATA=IREAD.DA_FIN_200909;
TABLE 变量1 变量2.../MISSING; RUN; |
查看每个字符型变量的频数分布,发现异常的值。
数据分析咨询请扫描二维码