热线电话：13121318867

盘点 | 每个数据分析师都应该了解的6个预测模型

2022-01-29

CDA数据分析师出品

作者：Ivo Bernardo

编译：Mika

数据分析模型有不同的特点和技术，值得注意的是，大多数高级的模型都基于几个基本原理。

当你想开启数据科学家的职业生涯时，应该学习哪些模型呢？本文中我们介绍了6个在业界广泛使用的模型。

目前很多舆论对机器学习和人工智过度追捧，当你想建立预测模型时，这会让给你不禁思考，是不是只有很高阶的技术才能解决问题。

但当你自己试着编程后才会发现，事实实际并非如此。作为一名数据工作者，你面临的很多问题都需要将几个模型组合起来解决，而且其中大部分模型已经出现了很长时间。

而且，即使你要使用先进的模型来解决问题，学习基本原理会让你在大多数情况中占得先机。与此同时，了解这些基础模型的优缺点将帮助你在数据分析项目取得成功。

下面我们就来具体看看6个数据分析师都应该掌握的预测模型吧。

01、线性回归

线性回归比较经典的模型之一，英国科学家Francis Galton在19世纪就使用了 "回归 "一词，并且仍然是使用数据表示线性关系最有效的模型之一。

线性回归是世界范围内，许多计量经济学课程的主要内容。学习该线性模型将让你在解决回归问题有方向，并了解如何用数学知识来预测现象。

学习线性回归还有其他好处，尤其是当你学习了两种可以获得最佳性能的方法时：

· 闭式解一个神奇的公式，能通过一个简单的代数方程给出变量的权重。

· 梯度下降法面向最佳权重值的优化方法，用于优化其他类型的算法。

此外，我们可以用简单的二维图在实践中直观地看到线性回归，这也使该模型成为理解算法的良好开始。

02、逻辑回归

虽然名为回归，但逻辑回归是掌握分类问题的最佳模型。

学习逻辑回归有以下几点优势：

初步了解分类和多分类问题，这是机器学习任务的重要部分
理解函数转换，如Sigmoid函数的转换
了解梯度下降的其他函数的用法，以及如何对函数进行优化。
初步了解Log-Loss函数

学习完逻辑回归后，有什么用？你将能够理解分类问题背后的机制，以及你如何使用机器学习来分离类别。

属于这方面的问题如下：

了解交易是否欺诈
了解客户是否会流失
根据违约概率对贷款进行分类

就像线性回归一样，逻辑回归也是一种线性算法。在研究了这两种算法之后，你将了解线性算法背后的主要局限性，同时认识到它们无法代表许多现实世界的复杂性。

03、决策树

首先要研究的非线性算法应该是决策树。决策树是一种基于if-else规则的，相对简单且可解释的算法，它将让你很好地掌握非线性算法及其优缺点。

决策树是所有基于树模型的基础，通过学习决策树，你还将准备学习其他技术，如XGBoost或LightGBM。

而且，决策树同时适用于回归和分类问题，两者之间的差异最小，选择影响结果的最佳变量的基本原理大致相同，你只是换了一个标准来做。

虽然你了解了回归中超参数的概念，如正则化参数，但在决策树中这是极其重要的，能够帮你明确区分模型的好坏。

同时，超参数在学习机器学习的过程中也至关重要，决策树能很好地对其进行测试。

04、随机森林

由于决策树对超参数和简单假设的敏感性，决策树的结果相当有限。当你深入了解后，你会明白决策树很容易过度拟合，从而得出的模型对未来缺乏概括性。

随机森林的概念非常简单。有助于在不同的决策树之间实现多样化，从而提高算法的稳健性。

就像决策树一样，你可以配置大量的超参数，以增强这种集成模型的性能。集成（bagging）是在机器学习中一个非常重要的概念，能为不同的模型带来了稳定性，即用平均数或投票机制将不同模型的结果转化为一个单一的方法。

在实践中，随机森林训练了固定数量的决策树，并对之前所有这些模型的结果进行平均。就像决策树一样，我们有分类和回归随机森林。如果你听说过 “群体智慧 "这个概念，那么集成模型就相当于将这个概念应用于机器模型训练。

05、XGBoost/LightGBM

其他基于决策树的算法，并能带来稳定性的模型有XGBoost或LightGBM。不仅能提升算法，还能提供更稳健和概括性的模式。

在Michael Kearns发表了关于弱学习者和假设检验的论文后，关于机器学习模型的思潮得到了关注。当中表明，增强模型是解决模型受到整体权衡偏差与方差的绝佳方案。此外，这些模型是Kaggle竞赛中最受欢迎的选择。

06、人工神经网络

最后，是当前预测模型中的王者——人工神经网络（ANNs）。

人工神经网络是目前最好的模型之一，可以在数据中找到非线性模式，并在自变量和因变量之间建立真正复杂的关系。通过学习人工神经网络，你将接触到激活函数、反向传播和神经网络层的概念，这些概念应该为你研究深度学习模型打下良好的基础。

此外，神经网络在结构上有很多不同的特点，学习最基本的神经网络将为转到其他类型的模型打下基础，如主要用于自然语言处理和递归神经网络和主要用于计算机视觉的卷积神经网络。

结语：

以上就是今天的全部内容。掌握这些模型应该会让你在数据分析和机器学习方面有一个不错的开始。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

决策树神经网络机器学习线性回归数据分析逻辑回归随机森林 XGBoost

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇为啥Pyecharts做出的图一个是彩色的，一个是黑白呢？

下一篇30岁还没结婚你会考虑将就么？数据告诉你，网友们都如何做出抉择

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

盘点 | 每个数据分析师都应该了解的6个预测模型

01、线性回归

02、逻辑回归

03、决策树

04、随机森林

05、XGBoost/LightGBM

06、人工神经网络

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载