机器学习流程:
数据获取:综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷)
数据预处理(特征工程):
读取数据,训练集和测试集划分
数据查看:数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)
数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理
数据探索性分析(数据分布情况;挖掘特征和目标的关系;挖掘、提取新特征,输出各种图和表格)
无量纲化(标准化,归一化,正则化)
特征选择(筛选特征)
降维(对数据做变换)
特征编码: 序号编码:label encode,特征取值有大小或者逻辑关系 哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作
模型训练:
模型选择:分类,回归,线性,非线性
模型训练
模型的优化:训练集(网格搜索交叉验证)
模型的评估:测试集