京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起!
今天咱们就来讨论一下传说中的集成算法,之前咱们讲的算法都是单兵作战的(单个模型得到结果),但是回过头来想一想现在是不是干啥都讲究个合作共赢,所以咱们的模型也是如此。单个算法确实势单力薄,假如我们可以把它们组合起来会不会得到更好的效果呢?(算法们要揭竿起义了,今亡亦死举大计亦死。。。编不下去了)
在集成算法中,有三个核心模块,咱们就一一道来,先来概述一下:
Bagging集成:并行的构造多个基础模型(随机森林),每一个基础模型都各自为政,然后把它们的结果求一个平均就好!
Boosting集成:串行的构造多个基础模型(Xgboost),每一个基础模型都要严格筛选,在前面的基础上加进来的新模型后,它们整体的效果起码得没加这个新的基础模型前要强吧!
Stacking集成:多种算法群殴一起上!选择多个机器学习算法做同一件事,最后把它们的结果合并就OK啦!
先来看看第一个家伙Bagging模型,其典型代表就是随机森立了,简单来说就是并行的训练一堆树模型,然后求其平均结果,在这里我们要讨论一个问题,就是每个树模型该怎么构造呢?如果不加入任何限制,那每个树模型不都差不多嘛,那最后的平均结果又会有什么变化呢?所以为了结果的泛化能力更强,必须要使得每个树模型表现出多样性,也就是尽可能的让每个树模型都不一样!
这该怎么做呢?什么影响模型呢?数据绝对是最大的影响因子,这里的森林很好理解了,就是把树放在一起,那么随机又是什么呢?为了保证每个树的多样性,在构建模型时,我们做了二重随机(我自创的词。。。)第一重就是对样本的选择,每次随机的有放回的选择部分样本作为一棵树的训练样本(比如选择百分之八十作为训练集)。第二重还要考虑特征了,既然样本数据能随机,那么特征也是一样的,每棵树选择的特征也是不一样的随机选择部分特征来建模!
随机的意义非常重要,这是随机森林的精神所在!
随机森林作为灰常经典的机器学习算法,优势自然少不了,当我们建模完之后,还可以对特征进行重要性评估,其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显著上升,如果显著上升,那么这个特征自然很重要,如果没变化,那这个特征就没啥用了,因为它和噪音没啥区别!
随机森林中树的个数是不是越多越好呢?理论上越多的树效果应该会更好吧,但是实际上我们把树的个数增加到一定的时候比如100棵了已经,再往上增加树的个数结果也只会发生小范围的浮动,基本也就稳定了!
Boosting集成中典型的代表就属Xgboost啦,一个大杀器,这个算法由于涉及的数学比较多,咱们后续来一个专题去讲Xgboost,我们先来看看简单些的Adaboost。
Adaboost算法概述来说就是,首选我有一个非常简单的模型,比如深度为1的树模型,然后我去预测一下结果,在结果中我发现某些样本预测错了,这个时候第二个简单的树模型就来了,还是同样的任务只不过数据的权重发生了变换,一开始所有的数据都是相同的权重,但是第二次会把前面那次预测错的数据的权重增大,相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了,这回好能分对它!(好比我们在考试前都会复习之前做错的题)
最后来看一下堆叠模型吧,社会我Stacking,人狠话不多,不需要多解释,做了一堆算法,然后把它们的结果堆叠起来,每个算法都有自己的预测结果,这些结果组合在一起那不相当于一个新的特征嘛,再把它们结果组成的特征去做一个分类或者回归,又得到了一个唯一的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10