机器学习之决策树

Zzyh12

2020-08-06 阅读量: 1425

机器学习之决策树

决策树是一种基本的分类与回归方法,由结点和有向边组成,路径上内部结点的特征对应着规则条件,而叶节点的类对应规则的结论(互斥并完备)

决策树预测过程:收集数据--准备数据--分析数据--训练算法--测试算法--使用算法

决策树的构建:特征选择,决策树的生成,决策树的修剪

特征选择的标准:信息增益(在划分数据集之后信息发生的变化,信息增益越高越好)

构建决策树的方法:ID3,C4.5,CART

ID3具体流程:从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子节点；再对子结点递归地调用以上方法，构建决策树。ID3相当于用最大似然法进行概率模型的选择.

C4.5具体流程;当属性类型为连续型，需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理的核心思想：将属性A的N个属性值按照升序排列；通过二分法将属性A的所有属性值分成两部分（共有N-1种划分方法，二分的阈值为相邻两个属性值的中间值）；计算每种划分方法对应的信息增益，选取信息增益最大的划分方法的阈值作为属性A二分的阈值.

CART具体流程:创建分类树递归过程中，CART每次都选择当前数据集中具有最小Gini系数的特征作为结点划分决策树

决策树优点:

白盒模型，易于理解和解释模型建立所需数据量较少可同时用于分类和回归

决策树的缺点:

容易过拟合，需要多参数调节对数据敏感，可通过集成算法进行优化优化过程是局部优化，未必能到全局最优