anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519 5 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
anranhui

scikit-learn算法选择路径图【scikit-learn algorithm cheat sheet】

中文翻译版本 英文原版英文原版链接:http://scikit-learn.org/stable/tutorial/machine_learning_map/

11.7839 6 2
  • 关注作者
  • 收藏
anranhui

SVD-矩阵奇异值分解 —— 原理与几何意义

1.简介SVD 全称:Singular Value Decomposition。SVD 是一种提取信息的强大工具,它提供了一种非常便捷的矩阵分解方式,能够发现数据中十分有意思的潜在模式。主要应用领域包括:隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI);推荐系统 (Recommend

40.2133 7 5
  • 关注作者
  • 收藏
123

热门用户 换一批

本月PGC排行 总奖励

暂无数据