决策树是一种基本的分类与回归方法,由结点和有向边组成,路径上内部结点的特征对应着规则条件,而叶节点的类对应规则的结论(互斥并完备)
决策树预测过程:收集数据--准备数据--分析数据--训练算法--测试算法--使用算法
决策树的构建:特征选择,决策树的生成,决策树的修剪
特征选择的标准:信息增益(在划分数据集之后信息发生的变化,信息增益越高越好)
构建决策树的方法:ID3,C4.5,CART
ID3具体流程:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树。ID3相当于用最大似然法进行概率模型的选择.
C4.5具体流程;当属性类型为连续型,需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理的核心思想:将属性A的N个属性值按照升序排列;通过二分法将属性A的所有属性值分成两部分(共有N-1种划分方法,二分的阈值为相邻两个属性值的中间值);计算每种划分方法对应的信息增益,选取信息增益最大的划分方法的阈值作为属性A二分的阈值.
CART具体流程:创建分类树递归过程中,CART每次都选择当前数据集中具有最小Gini系数的特征作为结点划分决策树
决策树优点:
白盒模型,易于理解和解释 模型建立所需数据量较少 可同时用于分类和回归
决策树的缺点:
容易过拟合,需要多参数调节 对数据敏感,可通过集成算法进行优化 优化过程是局部优化,未必能到全局最优
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar