集成学习_CDA答疑社区

随机森林：

XGboost：

lightBGM：算法和XGboost非常的像，但是稳定性还有点考量

集成算法的种类：

bagging：装代法的核心思想是构建多个相互独立的评估器，然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林

boosting：提升法中，基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测，从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。

bagging方法：

bagging方法过程：从m样本中有放回的抽取m个样本（每次抽样独立），抽n次，删除n个抽样数据集中的重复值。分别使用n次抽样的结果对弱分类器模型进行训练（可以是同一种算法，也可以是不同种类的算法，同一种模型中randomstate设置不同值也可以）。使用这n个训练好的模型对测试集数据进行预测，n次预测结果中通过投票的方式(例如采用少数服从多数)来决定最后的测试集预测结果。
有放回的抽样的原因：因为每次抽样是独立的，为保证每个样本在每次抽取中被抽到的概率一样，因此要进行有放回的抽样。
抽样之后去重的原因：模型中不允许数据集中有重复行。
采样集和采样集之间是相互独立的，训练出来的分类器之间也是相互独立的
效率比boosting的效率要高
基分类器之间是并行的关系

boosting：

在当前的迭代中，使用弱分类器模型对带样本权重（一个样本一个权重）的数据集进行拟合，增大预测错误的样本的权重，减少预测正确样本的权重，从而让下一个模型更改自己的复杂度，更加小心的对待这一次预测错的样本的信息，从而整体上不断进行提升。
一般来说boosting都会将决策树作为弱分类器
训练好的模型在对测试集进行预测的时候，测试集的样本是不需要设置测试集样本的权重
boosting算法最后是整体效果越来越好，而不是里面的弱分类器随着迭代效果越来越好
boosting是一个过拟合的算法

组合策略：

Bagging VS Boosting

1. 样本选择上

2. 样例权重

3. 预测函数

5. 过拟合和欠拟合

6. 算法目标