291294878

2018-10-20   阅读量: 784

数据分析师

列出数据清理的最佳实践?

扫码加入数据分析学习群

1)按不同的属性排序数据

2)对于大数据集,逐步清理并改进数据,直到获得良好的数据质量

3)对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度

4)要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值

5)如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题

6)分析每列的汇总统计数据(标准差,均值,缺失值的数量)

7)保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子