热线电话:13121318867

登录
2020-08-28 阅读量: 1265
机器学习流程(有监督学习)

业务理解(业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据)

数据获取(综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷))

数据预处理:

训练集和测试集划分 数据查看:数据读取,数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)

数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理

数据探索性分析(挖掘特征和目标的关系,挖掘、提取新特征,输出各种图和表格)

无量纲化(标准化,归一化,正则化)

特征选择(筛选特征)

降维(对数据做变换)

特征编码:

序号编码:label encode,特征取值有大小或者逻辑关系

哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作

模型训练:

模型选择:分类,回归,线性,非线性

模型训练

模型的优化:训练集(网格搜索交叉验证),测试集

模型的评估

模型应用


35.3721
0
关注作者
收藏
评论(0)

发表评论

暂无数据