热线电话:13121318867

登录
2020-08-15 阅读量: 891
数据清理的基本流程是什么?

1)按不同的属性排序数据

2)对于大数据集,逐步清理并改进数据,直到获得良好的数据质量

3)对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度

4)要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值

5)如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题

6)分析每列的汇总统计数据(标准差,均值,缺失值的数量)

7)保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作


2.0724
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子