zxq997
2018-10-16 阅读量: 1458
大部分的电脑打开anaconda ,点击install,即可安装orange3.如图:
即显示安装成功。
但是有些电脑点击install并没有反应。这时候需从cmd中执行 :conda install orange3(cmd最好以管理员身份运行)
但是电脑会报conda的某些文件的错误。这时需要更新conda到最新的版本,以免conda的某些配置文件和第三方库之间的冲突。
执行命令:conda update conda
再执行一遍 conda install orange3 即可。
绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。 先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下: 二者
预剪枝 在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。 优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能
ID3 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式
ID3(迭代二分法3)由Ross Quinlan于1986年开发。该算法创建多路树,为每个节点(即,以贪婪的方式)找到分类特征,该分类特征将为分类目标产生最大的信息增益。将树长到最大大小,然后通常应用修剪步骤以提高树概括未见数据的能力。 C4.5是ID3的后继版本,并通过动态定义离散属性(基于数字变量)来消除要素必须分类的限制,该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树(即