anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519 5 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
anranhui

树算法:ID3,C4.5,C5.0和CART¶的相互关系

ID3(迭代二分法3)由Ross Quinlan于1986年开发。该算法创建多路树,为每个节点(即,以贪婪的方式)找到分类特征,该分类特征将为分类目标产生最大的信息增益。将树长到最大大小,然后通常应用修剪步骤以提高树概括未见数据的能力。C4.5是ID3的后继版本,并通过动态定义离散属性(基于数字变量)来消除要素必须分类的限制,该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树(即

14.3059 2 4
  • 关注作者
  • 收藏
anranhui

决策树的优缺点

决策树(DT)是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是:易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化,需要创建伪变量并删除空白值。但是请注意,此模块不支持缺少的值。使用树的成本(即预测数据)与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

14.3059 2 0
  • 关注作者
  • 收藏
陈革007

机器学习: 监督学习和无监督学习有什么区别

监督学习:对具有标记的训练样本进行学习,这里,所有的标记是已知的。如:决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习:对没有标记的训练养样本进行学习,目的是为了发现训练集中的结构特征。如聚类算法

28.0292 8 1
  • 关注作者
  • 收藏
陈革007

机器学习: 请解释偏差和方差的权衡

偏差反映了模型的拟合能力,方差描述的是数据集变换对模型的影响。如果一味追求模型的拟合能力,可以使得偏差降低,但可能会导致不同数据训练出的不同模型之间的差异非常大,方差过大,模型的泛化能力较差,容易出现过拟合现象。模型不能同时兼顾偏差和方差

14.3283 4 0
  • 关注作者
  • 收藏
陈革007

机器学习: 如何对多参数进行调参?

网格化搜索:对于多个参数,首先根据经验确定大致的参数范围。然后选择较大的步长进行控制变量的方法进行搜索,找到最优解后;然后逐步缩小步长,使用同样的方法在更小的区间内寻找更精确的最优解。

14.3283 4 4
  • 关注作者
  • 收藏
陈革007

机器学习: K-means算法中初始点的选择对最终结果有影响吗?K-means聚类中每个类别中心的初始点如何选择?

会有影响,不同的初始值结果可能不一样。初始值离得尽可能远。

14.3283 4 3
  • 关注作者
  • 收藏
陈革007

机器学习: 在K-Means中如何选择k?

K-Means 算法的最大缺点是不能自动选择分类数k,常见的确定k的方法有:(1)根据先验知识来确定(2)手肘法(3)轮廓系数法

0.1829 3 1
  • 关注作者
  • 收藏
陈革007

机器学习: K均值算法的调优一般可以从哪几个角度出发?

1) 对于离群点和孤立点敏感:数据归一化和离群点处理。2) k值选择:手肘法,轮廓系数法选择3) 初始聚类中心的选择:多次选择4) 大数据集minibachkmeans

0.1829 3 4
  • 关注作者
  • 收藏
陈革007

机器学习: Kmeans的原理,优缺点

1)从N个数据对象中挑选出k个质心。2)计算N个数据对象距离不同质心的距离,并将N个数据对象划分到与之距离最小的质心,形成新的k个聚类。3)重新计算步骤2中获取新的k个聚类的质心,计算方法为求取聚类中所有数据对象的均值。4)重复2-3步骤,直到每个聚类的数据成员不再发生变化。优点:1) 计算机时间短,速度快2) 容易解释3) 对球状聚类效果还不错缺点:1) 对于离群点和孤立点敏感

14.2039 3 2
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
大魔王泛泛

python 中怎样对不同的列分别填充不同的缺失值

对于这种情况我们会采用 fillna()函数对缺失值进行处理,参数是一个字典,用字典对不同的列填充不同的缺失数据如下图所示:

14.1454 1 7
  • 关注作者
  • 收藏
陈革007

机器学习: KNN 预测范围 注意点

KNN 不能做 超出训练集范围(0-70)的预测, 否则就是一条直线, 如下:

25.3481 7 3
  • 关注作者
  • 收藏
陈革007

KNN的优缺点

优点1、 思想简单,能做分类和回归2、 惰性学习,无需训练(蛮力法),KD树的话,则需要建树3、 对异常点不敏感缺点1、 计算量大、速度慢2、 样本不平衡的时候,对稀有类别的预测准确率低3、 KD树,球树之类的模型建立需要大量的内存4、 相比决策树模型,KNN模型可解释性不强

25.0618 5 2
  • 关注作者
  • 收藏
陈革007

如何选择knn模型中的k?k值大小和模型欠拟合和过拟合如何对应?

(1)如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;(2)如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入

25.0231 4 1
  • 关注作者
  • 收藏
陈革007

在模型评估过程中,过拟合和欠拟合具体是指什么现象?常用的过拟合解决方法有哪些?

过拟合:模型在训练集上的评估指标表现很好,但在测试集和新数据上的表现很差欠拟合:模型在训练和预测评估指标都不好过拟合解决方法:(1) 增大数据集(2)减少数据特征(降维,特征选择)(3)正则化(L1和L2)(4)降低模型复杂度(如对决策树剪枝等)(5)交叉验证(6)集成学习方法

25.0231 4 3
  • 关注作者
  • 收藏
PhilipLiang

机器学习第一天作业知识点整理

欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。对于训练好的模型,若在训练集表现差,在测试集表现同样会很差。一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。过拟合是指为了得到一致假设而使假设变得过度严格。过拟合解决方法:增大数据集合,使用更多数据

25.1336 4 3
  • 关注作者
  • 收藏
大魔王泛泛

numpy.random.seed()的参数说明

seed( ) 用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed( )值,则每次生成的随即数都相同 ,如下图所示:

29.7890 3 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
ermutuxia
4010.7891
02
詹惠儿
3759.5580
03
啊啊啊啊啊吖
2780.0251
04
WXJLIJp
341.3716
05
liting李
205.7142
06
a1105293248
80.0000
07
hunter.Z
80.0000
08
天浪觅
34.2857
09
M18758998702
0.1036