1. 数据读取
- 读取数据
- 文件路径(一般不要有中文,反斜杠/,r)
- 分隔符
- 编码格式
- 看下每个特征的数据类型,是否有缺失
- 数据规模--样本量,特征数
2. 特征理解(数据探索,可视化)
- 单变量分析
- 多变量分析,综合多种因素影响
- 统计绘图(得出简单结论)
- 条形图:主要反映项目比较
- 饼图:反映构成,占比,(块数不能太多,不要用三维饼图)
- 线图:主要用于趋势分析,时间因素
- 散点图:反映分布,相关性
- 箱线图:观察异常值
3. 数据清洗与预处理
- 缺失值处理(填充:中位数,众数,平均值,特定值,算法填充)
- 重复值(直接删除)
- 特征标准化,归一化
- 特征工程
- 业务筛选
- 过滤算法
- 特征构建(lambda函数(字符串处理,正则表达式,三元运算符)结合map,apply使用)
- 降维算法(PCA)
- 变量编码(分箱,独热编码)
- 特征相关性(相关矩阵,热图,删除一些变量/降维压缩)
4. 数据建模(分类,聚类,回归)
- 划分数据集(训练集,测试集(验证集))
- 多个模型对比
- 超参数设置,学习曲线,网格搜索
- 集成算法,提升算法,深度学习
- 模型评估
- 回归:R方,平方根误差,平均平方误差
- 聚类:轮廓系数
- 分类:混淆矩阵,精准率,召回率,精准度,F值,ROC-AUC
5. 项目报告








暂无数据