2020-08-28
阅读量:
1265
机器学习流程(有监督学习)
业务理解(业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据)
数据获取(综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷))
数据预处理:
训练集和测试集划分 数据查看:数据读取,数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)
数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理
数据探索性分析(挖掘特征和目标的关系,挖掘、提取新特征,输出各种图和表格)
无量纲化(标准化,归一化,正则化)
特征选择(筛选特征)
降维(对数据做变换)
特征编码:
序号编码:label encode,特征取值有大小或者逻辑关系
哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作
模型训练:
模型选择:分类,回归,线性,非线性
模型训练
模型的优化:训练集(网格搜索交叉验证),测试集
模型的评估
模型应用






评论(0)


暂无数据