SAS数据集中重复数据的处理方法-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读SAS数据集中重复数据的处理方法

SAS数据集中重复数据的处理方法

2017-06-01

SAS数据集中重复数据的处理方法

在使用SAS在处理数据的时候，经常会遇到或产生一些重复数据，有些重复数据是我们需要的，而有的则是多余的。下面讲到的内容就是筛选/排除某一数据集里重复数据以及去重的几种常用方法。

测试数据如下：

TARGET 1: 保留不重复数据/保留重复数据

方法1：DATA STEP

/*根据ID排序*/

proc sort data=ID;

by ID;

run;

/*保留不重复ID*/

dataID_1;

setID;

byID;

if first.ID = last.ID =1;

run;

/*保留重复ID*/

dataID_2;

setID;

byID;

if ^(first.ID = last.ID =1) ;

run;

方法2：PROC SQL

/*保留唯一的ID*/

proc sql;

create tableid_3as

selecta.*fromID a,

(selectID,count(1)asID_cntfromID

group byID

having ID_cnt=1) b

wherea.ID=b.ID;

quit;

/*保留非唯一的ID*/

proc sql;

create tableid_4as

selecta.*fromID a,

(selectID,count(1)asID_cntfromID

group byID

having ID_cnt>1) b

wherea.ID=b.ID;

quit;

方法3：PROC FREQ

/*保留唯一的ID*/

proc freqdata=IDnoprint;

tableID /out=id_5 (keep = ID Count where = (Count = 1)) ;

run;

/*保留非唯一的ID*/

proc freqdata =IDnoprint;

tableID /out=id_6 (keep = ID Count where = (Count > 1)) ;

run;

TARGET 2: 数据集去重

方法1：PROC SORT

/*根据ID去重*/

proc sortdata=IDnodupkey out=ex1;

byID ;

run;

注：此处使用nodup与nodupkey会产生相同结果，但实际应用中它们存在一定差异，其主要区别在于：

NODUPKEY去除关键字 by ID相同的数据

NODUP去除observation完全相同的记录，但是相同的记录必须相邻

方法2：PROC SQL

/*根据ID去重*/

proc sql;

create tableex2as

select distinctIDfromID;

quit;

方法3：DATA STEP

/*根据ID排序*/

proc sort data=ID;

by ID;

run;

/*根据ID去重*/

dataex3;

setID;

byID;

iffirst.IDthen outputex3;

run;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SAS数据集中重复数据的处理方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载