2020-08-21
阅读量:
661
数据分析流程
1.数据分析流程:
确定数据分析的目的——》获取数据——》清洗数据——》探索数据——》建模分析——》结果交流
2.数据清洗流程:
数据的读写——》数据的探索与描述——》数据简单处理——》重复值的处理——》缺失值的处理——》异常值的处理——》文本字符串的处理——》时间格式序列的处理,其中后面的五个部分先后顺序
数据的读写:(1) pd.read_csv('文件路径')(2)pd.read_excel('文件路径')
数据的探索与描述:(1) df.info() (2) df.describe()
数据简单处理:(1)去除数据间的空格 (2)英文字母大小写的转换
重复值的处理:(1)duplicated() (2)drop_duplicates()
缺失值的处理:(1)删除缺失值 (2)均值填补法 (3)向前填充/向后填充 (4)模型填补法,如:随机森林、kNN
异常值的处理:(1)删除异常值的记录 (2)作为缺失值处理 (3)平均值修正、盖帽法修正 (4)不处理:业务分析挖掘价值
文本字符串的处理:(1)去除前后空格处理 (2)处理中间有, ()之类的数据:replace(',','') (3)正则表达式提取所需数据
时间格式序列的处理:(1)将系统时间格式化 (2)系统时间和时间戳相互转换 (3)年月日的提取






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论