随机森林:
XGboost:
lightBGM:算法和XGboost非常的像,但是稳定性还有点考量
集成算法的种类:
bagging:装代法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集 成评估器的结果。装袋法的代表模型就是随机森林
boosting:提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对 难以评估的样本进行预测,从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升 树。
bagging方法:
bagging方法过程:从m样本中有放回的抽取m个样本(每次抽样独立),抽n次,删除n个抽样数据集中的重复值。分别使用n次抽样的结果对弱分类器模型进行训练(可以是同一种算法,也可以是不同种类的算法,同一种模型中randomstate设置不同值也可以)。使用这n个训练好的模型对测试集数据进行预测,n次预测结果中通过投票的方式(例如采用少数服从多数)来决定最后的测试集预测结果。
有放回的抽样的原因:因为每次抽样是独立的,为保证每个样本在每次抽取中被抽到的概率一样,因此要进行有放回的抽样。
抽样之后去重的原因:模型中不允许数据集中有重复行。
采样集和采样集之间是相互独立的,训练出来的分类器之间也是相互独立的
效率比boosting的效率要高
基分类器之间是并行的关系
boosting:
在当前的迭代中,使用弱分类器模型对带样本权重(一个样本一个权重)的数据集进行拟合,增大预测错误的样本的权重,减少预测正确样本的权重,从而让下一个模型更改自己的复杂度,更加小心的对待这一次预测错的样本的信息,从而整体上不断进行提升。
一般来说boosting都会将决策树作为弱分类器
训练好的模型在对测试集进行预测的时候,测试集的样本是不需要设置测试集样本的权重
boosting算法最后是整体效果越来越好,而不是里面的弱分类器随着迭代效果越来越好
boosting是一个过拟合的算法
组合策略:
连续型标签:可以使用平均法,用每个弱分类器的预测结果与权重,进行加权平均。bagging的权重都一直
离散型的变量:投票法,少数服从多少的方式取结果;或者加权平均,计算出来的结果离1更近,则结果为1更接近0则结果取0
Bagging VS Boosting
1. 样本选择上
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立 的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化,而权 值是根据上一轮的分类结果进行调整。
2. 样例权重
Bagging:使用均匀取样,每个样例的权重相等。
Boosting:根据错误率不断调整样例的权重,错误率越大则权重越大,因此Boosting的分类 精度要优于Bagging。
3. 预测函数
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
4. 并行计算
Bagging:各个预测函数可以并行生成,对于极为耗时的学习方法,Bagging可通过并行训练 节省大量时间开销。
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
5. 过拟合和欠拟合
单个评估器存在过拟合问题的时候,Bagging能在一定程度上解决过拟合问题,而Boosting 可能会加剧过拟合的问题。
单个评估其学习能力较弱的时候,Bagging无法提升模型表现,Boosting有一定可能提升模 型的表现。
6. 算法目标
Bagging:降低方差,提高模型整体的稳定性。
Boosting:降低偏差,提高模型整体的精确度。
Bagging和Boosting都可以有效地提高分类的准确性。在大多数数据集中,Boosting的准确 性要高于Bagging。








暂无数据