Scikit-learn-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度？基尼不纯度是什么？

绝大部分情况下熵（entropy）和基尼指数（Gini Index）在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数（impurity）有三种（假设有k个类别）：不难看出，三个函数均为凸函数。只不过误分率（函数1）是分段线性函数（piece-wise linear），有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段，它们的优势如下：二者

14.4630

4

2

0

关注作者

收藏

PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模，使其较早的停止生长。对每个节点划分前用验证集进行估计，通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并标记当前节点为叶子结点。优缺点：预剪枝使得决策树的很多分支没有“展开”，降低了过拟合的风险，还能够减少决策树的训练时间以及预测事件开销。但是，有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519

5

6

0

关注作者

收藏

PhilipLiang

ID3，C4.5，CART算法对比

ID3ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式

0.0237

1

7

0

关注作者

收藏

PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心分别计算剩下的元素到k个子集中心的距离，将这些元素分别划归到最近的子集根据聚类结果，重新计算中心（子集中所有元素各个维度的算数平均数）将集合A中全部元素按照新的中心然后再重新聚类重复以上步骤，直到聚类的结果不再发生变化KMeans的优点原理比较简单，实现也很容易，收敛速度快。球状聚类效果较优

0.0000

0

3

0

关注作者

收藏

anranhui

scikit-learn算法选择路径图【scikit-learn algorithm cheat sheet】

中文翻译版本英文原版英文原版链接：http://scikit-learn.org/stable/tutorial/machine_learning_map/

11.7839

6

2

0

关注作者

收藏

anranhui

SVD-矩阵奇异值分解 —— 原理与几何意义

1.简介SVD 全称：Singular Value Decomposition。SVD 是一种提取信息的强大工具，它提供了一种非常便捷的矩阵分解方式，能够发现数据中十分有意思的潜在模式。主要应用领域包括：隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI)；推荐系统 (Recommend

40.2133

7

5

0

关注作者

收藏

123

CDA考试动态

CDA报考指南