数据统计学习的5个基本流程-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据统计学习的5个基本流程

数据统计学习的5个基本流程

2018-03-19

数据统计学习的5个基本流程

统计学、大数据应用很广泛，常常被提及！统计学习也有一定的规律流程，下面我们大圣众包小编分享一位朋友关于统计学习流程步骤的看法，看看他怎么说。

统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

统计学习的一般流程

得到一个有限的数据集合

确定所有的学习模型集合

确定模型选择的准则，就是学习的策略

实现求解最优模型的算法并通过学习方法选择最优模型

利用学习得到的最优模型对新数据进行分析或预测

步骤一：得到一个有限的数据集合

涉及到以下多个流程：

1、数据的采集

2、原始数据的格式化、标准化

3、原始去噪，去掉错误的值(而不是误差值，这里又涉及到一个复杂的问题，如何界定错误数据)

4、预处理(针对具体需要研究的问题、抽取相应地特征组成需要研究的数据集合)

步骤二：确定所有的学习模型集合

这个问题取决于我们选择怎么样的学习方法。常见得学习方法有：

1、感知机模型

2、k近邻法

3、朴素贝叶斯法

4、决策树

5、逻辑斯谛回归和最大熵模型

6、支持向量机

7、提升方法AdaBoost

8、EM算法

9、隐马尔可夫模型

10、条件随机场

而且这些算法还可以进行变异、组合然后形成新的算法模型。也是通常认为中数据挖掘比较核心的部分。

步骤三：确定模型选择的策略

一般来说，当你确定了你的学习方法后，在学习的过程中会产生很多个模型。而如何在这些模型中间挑选最优的模型，成为了我们亟待解决的问题。

一般衡量一个模型的优秀程度我们使用两个指标：

1、拟合能力

2、泛化能力

拟合能力

表示模型的计算结果和实际结果的相差程度，我们一般使用风险函数来衡量。而风险函数是损失函数的期望。所以我们其实是使用损失函数来衡量一个模型的期望。

常见的损失函数:

1、0-1损失函数

2、平分损失函数

3、绝对值损失函数

4、对数损失函数

损失函数越小，模型的拟合能力就越好。

泛化能力泛化能力是指模型对新数据的预测能力。一般来说，越复杂的模型的拟合能力越强，但是泛化能力越弱。所以我们需要选择一个适当复杂度的模型，使其泛化能力和拟合能力都足够强。

而衡量一个模型同时具有较好地泛化能力和拟合能力，我们一般用结构风险函数。

结构风险函数是在风险函数的基础上面加上一个罚项。通过罚项来降低复杂度高的模型的结构风险函数值。从而达到筛选出合适的复杂度的模型的目的。

罚项一般取特征空间w的范数，一般有：

1、L0范数

2、L1范数

3、L2范数

4、核范数…

步骤四：实现求解最优模型的算法并通过学习方法选择最优模型

求解最优模型的算法其实就是求解结构风险函数最小值得算法,即结构风险函数最优化的问题。

如果结构风险函数在我们所关心的区域中是凸函数的话，那么任何局部最小解也是全局最优解。现在已经有稳定，快速的数值计算方法来求二次可微地凸函数的最小值。

然而，很多时候我们没有办法通过结构风险函数直接算出它的最小值。我们只能通过一些迭代的方式获得局部最优解。

常见的通过迭代的方式获得局部最优解的算法有：

1、梯度下降法

2、牛顿法

3、共轭梯度法

4、线性搜索

5、置信域方法

另外还有一些算法：

1、模拟退火

2、遗传算法

3、类免疫算法

4、演化策略

5、差异演化算法

6、微粒群算法

7、神经网络

8、支持向量机

步骤五：利用学习得到的最优模型对新数据进行分析或预测

到这一步一般来说已经成功了，然后往往现实是残酷的，辛辛苦苦20年，一朝回到解放前。

往往学习得到的模型在实际使用过程当中并不是那么的理想。这里面有很多种原因：

有可能是原始数据的原因

有可能是特征选择的原因

有可能是模型的原因

有可能是最优模型算法的问题

有可能是代码错误

总之，以上的所有步骤的所有细节都可能导致你的模型不够优秀。这就需要你再次的思考这个问题，去不断的优化你的模型。直到得到一个不错的模型。

小结

其实数据挖掘涉及的东西远比我上面说的这点东西多的多，我上面提到的还只是监督学习。就光我上面提到的几个步骤。其实每一个步骤都有很多很多东西可以讲，可以研究，工程方面的、算法理论方面的等等等等。

一入数据挖掘深似海，从此奋斗到天明。

数据挖掘还是很有意思的，你可以用机器的力量、数学的力量理解世界的运行规律。去预测他或者利用你研究到的东西做一些有意思的事情。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

损失函数泛化能力数据挖掘特征支持向量机特征空间朴素贝叶斯感知机

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇几个大数据误区值得让你深入思考

下一篇如何用六点教会老婆写 Python

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据统计学习的5个基本流程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA数据分析师认证介绍

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载