M17101912355969

2021-01-20   阅读量: 45

数据分析师

机器学习流程

机器学习流程:

  1. 业务理解:业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据

  2. 数据获取:综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷)

  3. 数据预处理(特征工程):

    • 读取数据,训练集和测试集划分

    • 数据查看:数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)

    • 数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理

    • 数据探索性分析(数据分布情况;挖掘特征和目标的关系;挖掘、提取新特征,输出各种图和表格)

    • 无量纲化(标准化,归一化,正则化)

    • 特征选择(筛选特征)

    • 降维(对数据做变换)

    • 特征编码: 序号编码:label encode,特征取值有大小或者逻辑关系 哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作

  4. 模型训练:

    • 模型选择:分类,回归,线性,非线性

    • 模型训练

    • 模型的优化:训练集(网格搜索交叉验证)

  5. 模型的评估:测试集

  6. 模型应用


60.9852 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子