8月6日_CDA答疑社区

决策树是一种基本的分类与回归方法
看成if -then 规则
决策树的构建
特征选择(特征选择对于选取对训练数据有分类的特征)
决策树的生成
决策树的修剪

信息增益:
在划分数据集之后信息发生的变化称为信息增益.
熵定义为信息量的期望值.(概率越小,信息量大)

香农熵
n(类别)越大,香农熵(H)越大,n固定,H在均匀条件下最大

经验熵(香农熵根据概率算出来,但概率不知道,只能使用经验熵)

分类少 H(D|A)大 g小
分类多 H(D|A)小 g大
ID3算法会优先选择多属性

特征是离散的上面用了,下面就不能用,
特征是连续的上面用了,下面可以继续使用,要重新划分.
CRAT
分类树
基尼系数(基尼不纯度)
类越多,基尼系数越大

回归树
采用样本方差衡量节点纯度,方差越小越确定范围.

总结
ID3:分类问题,多叉树,信息增益最大原则选特征,输入特征要求离散
C4.5分类问题,多叉树,信息增益率最大原则选特征,输入特征可以离散可以连续(离散化的处理)
CRAT: 二叉树,输入特征可以是离散也可以是连续
分类问题:基尼系数最小化原则
回归问题:平方误差最小化原则

sklearn.tree.DecisionTreeClassifier参数优化
max_depth,min_samples_split,max_leaf_nodes,min_impurity_decrease,class_weight