2018-11-27
阅读量:
774
数据预处理的首要步骤
数据预处理的首要步骤是要对数据进行字段选择(Attribute Selection),字段选择包括数据整合(Data Integration)和数据过滤两个方面(Data Filtering)。数据整合是将不同来源的数据整合在一个数据库中的过程。因为数据的来源不同,数据可能会出现不一致的情况,包括数据结构不一致、属性名不一致和属性值不一致。例如:不同来源的收入表,可能以人民币做单位,也可能以美元做单位,因此在数据整合的过程中要将两种单位统一,从而消除数据不一致。数据在整合的过程中,也会出现重复的情况,比如A数据表和B数据表都有某会员的信息,而且信息相同,这时信息重复,我们要对其中一个信息进行消除;如果A数据表和B数据表都有某会员的信息,但是信息不同,这时两个表里的本应该向同的信息不能匹配,说明是错误信息,需要删除。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论