闫粤东

2022-03-03   阅读量: 403

Python

数据建模流程

扫码加入数据分析学习群

1.明确需求(因变量Y)

2.数据清洗(重复值,缺失值,异常值,数据编码)

重复值针对行,可能是因为数据来源于多个系统

缺失值:1.删除所在行

2.填补(所在列为连续型数据用均值填补;所在列为分类型数据用分数填补或者直接将缺失值单独做一类)

异常值:错误值 数据治理SQL

离群值 学术 清洗阶段处理离群值(小样本)

业界 残差的离群值(大样本)

数据编码:将一些不方便提取信息的东西编码变成易提取的数字

3.变量筛选(凭借业务知识去筛选,相关分析(相关系数,散点图)逐步回归(向前法))变量选择以本人意愿为准

变量变换 (非线性,PCA,卷积(图)/词模型(文本))

4.分割 测试集 训练集(预测) Y 连续型:直接切分

Y 分类型:样本不平衡

5.回归(F检验,t检验,adjusted R^20

6.模型调优(线性性,序列相关性,共线性,内生性,同方差,正态性)

7.继续优化(季节变量,高次项,交互项,哑变量...)

8.模型测试(交叉验证,测试集)


59.7358 3 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子