2020-08-15
阅读量:
891
数据清理的基本流程是什么?
1)按不同的属性排序数据
2)对于大数据集,逐步清理并改进数据,直到获得良好的数据质量
3)对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度
4)要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值
5)如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题
6)分析每列的汇总统计数据(标准差,均值,缺失值的数量)
7)保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论