数据挖掘的分类技术分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据挖掘的分类技术分析

数据挖掘的分类技术分析

2017-01-26

数据挖掘的分类技术分析

1、过分拟合问题：

造成原因有：

（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）

（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很可能做出错误的预测）

（3）多重比较也可能会导致过分拟合（大量的候选属性和少量的训练记录最后导致了模型的过分拟合）

2、泛化误差的估计：

（1）乐观估计（决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型）

（2）悲观误差估计（使用训练误差与模型复杂度罚项的和计算泛化误差）

（3）最小描述长度原则（模型编码的开销加上误分类记录编码的开销）

（4）估计统计上界（泛化误差可以用训练误差的统计修正来估计，因为泛化误差倾向于比训练误差大，所以统计修正通常是计算训练误差的上界）

（5）使用确认集（如2/3的训练集来建立模型，剩下的用来做误差估计）

3、处理决策树中的过分拟合：

A)：先剪枝（提前终止规则）：当观察到的不纯性度量的增益（或估计的泛化误差的改进）低于某个确定的阈值时就停止扩展叶节点。 B)：初始决策树按照最大规模生长，然后进行剪枝的步骤，按照自底向上的方式修剪完全增长的决策树。

修剪有两种方法：（1）用新的叶节点替换子树，该叶节点的类标号由子树下记录中的多数类确定；（2）用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。与先剪枝相比，后剪枝技术倾向于产生更好的结果。数据分析培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

决策树多重比较数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据挖掘的分类技术分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载