热线电话:13121318867

登录
2020-03-22 阅读量: 749
数据挖掘的一般流程

1. 数据读取

- 读取数据

- 文件路径(一般不要有中文,反斜杠/,r)

- 分隔符

- 编码格式

- 看下每个特征的数据类型,是否有缺失

- 数据规模--样本量,特征数

2. 特征理解(数据探索,可视化)

- 单变量分析

- 多变量分析,综合多种因素影响

- 统计绘图(得出简单结论)

- 条形图:主要反映项目比较

- 饼图:反映构成,占比,(块数不能太多,不要用三维饼图)

- 线图:主要用于趋势分析,时间因素

- 散点图:反映分布,相关性

- 箱线图:观察异常值

3. 数据清洗与预处理

- 缺失值处理(填充:中位数,众数,平均值,特定值,算法填充)

- 重复值(直接删除)

- 特征标准化,归一化

- 特征工程

- 业务筛选

- 过滤算法

- 特征构建(lambda函数(字符串处理,正则表达式,三元运算符)结合map,apply使用)

- 降维算法(PCA)

- 变量编码(分箱,独热编码)

- 特征相关性(相关矩阵,热图,删除一些变量/降维压缩)

4. 数据建模(分类,聚类,回归)

- 划分数据集(训练集,测试集(验证集))

- 多个模型对比

- 超参数设置,学习曲线,网格搜索

- 集成算法,提升算法,深度学习

- 模型评估

- 回归:R方,平方根误差,平均平方误差

- 聚类:轮廓系数

- 分类:混淆矩阵,精准率,召回率,精准度,F值,ROC-AUC

5. 项目报告

26.3934
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子