Python数据分析-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度？基尼不纯度是什么？

绝大部分情况下熵（entropy）和基尼指数（Gini Index）在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数（impurity）有三种（假设有k个类别）：不难看出，三个函数均为凸函数。只不过误分率（函数1）是分段线性函数（piece-wise linear），有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段，它们的优势如下：二者

14.4630

4

2

0

关注作者

收藏

PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模，使其较早的停止生长。对每个节点划分前用验证集进行估计，通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并标记当前节点为叶子结点。优缺点：预剪枝使得决策树的很多分支没有“展开”，降低了过拟合的风险，还能够减少决策树的训练时间以及预测事件开销。但是，有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519

5

6

0

关注作者

收藏

PhilipLiang

ID3，C4.5，CART算法对比

ID3ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式

0.0237

1

7

0

关注作者

收藏

anranhui

树算法：ID3，C4.5，C5.0和CART¶的相互关系

ID3（迭代二分法3）由Ross Quinlan于1986年开发。该算法创建多路树，为每个节点（即，以贪婪的方式）找到分类特征，该分类特征将为分类目标产生最大的信息增益。将树长到最大大小，然后通常应用修剪步骤以提高树概括未见数据的能力。C4.5是ID3的后继版本，并通过动态定义离散属性（基于数字变量）来消除要素必须分类的限制，该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树（即

14.3059

2

4

0

关注作者

收藏

anranhui

决策树的优缺点

决策树（DT）是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是：易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化，需要创建伪变量并删除空白值。但是请注意，此模块不支持缺少的值。使用树的成本（即预测数据）与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

14.3059

2

0

0

关注作者

收藏

陈革007

机器学习: 监督学习和无监督学习有什么区别

监督学习：对具有标记的训练样本进行学习，这里，所有的标记是已知的。如：决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习：对没有标记的训练养样本进行学习，目的是为了发现训练集中的结构特征。如聚类算法

28.0292

8

1

0

关注作者

收藏

陈革007

机器学习: 请解释偏差和方差的权衡

偏差反映了模型的拟合能力，方差描述的是数据集变换对模型的影响。如果一味追求模型的拟合能力，可以使得偏差降低，但可能会导致不同数据训练出的不同模型之间的差异非常大，方差过大，模型的泛化能力较差，容易出现过拟合现象。模型不能同时兼顾偏差和方差

14.3283

4

0

0

关注作者

收藏

陈革007

机器学习: 如何对多参数进行调参？

网格化搜索：对于多个参数，首先根据经验确定大致的参数范围。然后选择较大的步长进行控制变量的方法进行搜索，找到最优解后；然后逐步缩小步长，使用同样的方法在更小的区间内寻找更精确的最优解。

14.3283

4

4

0

关注作者

收藏

陈革007

机器学习: K-means算法中初始点的选择对最终结果有影响吗？K-means聚类中每个类别中心的初始点如何选择？

会有影响，不同的初始值结果可能不一样。初始值离得尽可能远。

14.3283

4

3

0

关注作者

收藏

陈革007

机器学习: 在K-Means中如何选择k?

K-Means 算法的最大缺点是不能自动选择分类数k，常见的确定k的方法有：（1）根据先验知识来确定（2）手肘法（3）轮廓系数法

0.1829

3

1

0

关注作者

收藏

陈革007

机器学习: K均值算法的调优一般可以从哪几个角度出发？

1) 对于离群点和孤立点敏感：数据归一化和离群点处理。2) k值选择：手肘法，轮廓系数法选择3) 初始聚类中心的选择：多次选择4) 大数据集minibachkmeans

0.1829

3

4

0

关注作者

收藏

陈革007

机器学习: Kmeans的原理，优缺点

1）从N个数据对象中挑选出k个质心。2）计算N个数据对象距离不同质心的距离，并将N个数据对象划分到与之距离最小的质心，形成新的k个聚类。3）重新计算步骤2中获取新的k个聚类的质心，计算方法为求取聚类中所有数据对象的均值。4）重复2-3步骤，直到每个聚类的数据成员不再发生变化。优点：1）计算机时间短，速度快2）容易解释3）对球状聚类效果还不错缺点：1) 对于离群点和孤立点敏感

14.2039

3

2

0

关注作者

收藏

PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心分别计算剩下的元素到k个子集中心的距离，将这些元素分别划归到最近的子集根据聚类结果，重新计算中心（子集中所有元素各个维度的算数平均数）将集合A中全部元素按照新的中心然后再重新聚类重复以上步骤，直到聚类的结果不再发生变化KMeans的优点原理比较简单，实现也很容易，收敛速度快。球状聚类效果较优

0.0000

0

3

0

关注作者

收藏

大魔王泛泛

python 中怎样对不同的列分别填充不同的缺失值

对于这种情况我们会采用 fillna（）函数对缺失值进行处理，参数是一个字典，用字典对不同的列填充不同的缺失数据如下图所示：

14.1454

1

7

0

关注作者

收藏

陈革007

机器学习: KNN 预测范围注意点

KNN 不能做超出训练集范围(0-70)的预测, 否则就是一条直线, 如下:

25.3481

7

3

0

关注作者

收藏

陈革007

KNN的优缺点

优点1、思想简单，能做分类和回归2、惰性学习，无需训练（蛮力法），KD树的话，则需要建树3、对异常点不敏感缺点1、计算量大、速度慢2、样本不平衡的时候，对稀有类别的预测准确率低3、 KD树，球树之类的模型建立需要大量的内存4、相比决策树模型，KNN模型可解释性不强

25.0618

5

2

0

关注作者

收藏

陈革007

如何选择knn模型中的k？k值大小和模型欠拟合和过拟合如何对应？

（1）如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；（2）如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入

25.0231

4

1

0

关注作者

收藏

陈革007

在模型评估过程中，过拟合和欠拟合具体是指什么现象？常用的过拟合解决方法有哪些？

过拟合：模型在训练集上的评估指标表现很好，但在测试集和新数据上的表现很差欠拟合：模型在训练和预测评估指标都不好过拟合解决方法：（1）增大数据集（2）减少数据特征（降维，特征选择）（3）正则化（L1和L2）（4）降低模型复杂度（如对决策树剪枝等）（5）交叉验证（6）集成学习方法

25.0231

4

3

0

关注作者

收藏

PhilipLiang

机器学习第一天作业知识点整理

欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。对于训练好的模型，若在训练集表现差，在测试集表现同样会很差。一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。过拟合是指为了得到一致假设而使假设变得过度严格。过拟合解决方法：增大数据集合，使用更多数据

25.1336

4

3

0

关注作者

收藏

大魔王泛泛

numpy.random.seed()的参数说明

seed( ) 用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed( )值，则每次生成的随即数都相同 ,如下图所示：

29.7890

3

0

0

关注作者

收藏

123…123>

CDA考试动态

CDA报考指南