热线电话:13121318867

登录
2018-11-15 阅读量: 1006
决策树中要解决的问题(二)

选择属性的替代措施

ID3算法使用的信息增益公式将所有变量视为相同,无论其分布及其重要性如何。 当涉及具有许多可能值的连续变量或离散变量时,这是一个问题,因为对于每个可能的值,训练示例可能很少且很远,这导致由于将数据分成小的子集而导致低熵和高信息增益但是导致决策树可能无法很好地概括。

避免这种情况的一种方法是使用其他一些措施来找到最佳属性而不是信息增益。 信息增益的另一种衡量方法是增益率 (Quinlan 1986)。 增益比试图通过在称为分割信息的 信息增益中添加分母来纠正信息增益对具有许多可能值的属性的偏差。 拆分信息尝试测量属性拆分数据的广泛程度和统一程度:

$ SplitInformation(S,A)= - \ sum_ {i = 1} ^ {c} rac {| S_i |} {| S |} \ cdot log_2 rac {| S_i |} {| S |} $

增益比率根据增益分裂信息定义为,

$ Gain Ratio(S,A)\ equiv rac {Gain(S,A)} {SplitInformation(S,A)} $

使用增益比代替信息增益时出现的一个实际问题是,当$ | S_i |时,分母可以为零或非常小。 pprox | S | $为$ S_i $之一。 对于几乎所有S成员都具有相同值的属性,这或者使增益比未定义或非常大。例如,如果属性只有一个可能的值,那么公式等于$ log_2 $ 1 = 0.Luckily ,我们倾向于不在训练数据中包含具有1个可能值的属性,因为通过仅使用1值分割属性来执行ID3算法是不可能的,因此增益比不必处理分母的可能性。 0.另一方面,我们的连续温度示例在我们的训练数据中有10个可能的值,每个值都出现一次,这导致 - (1/10)$ \ cdot log_2 $(1/10)= $ log_2 $ 10。 通常,具有n个均匀分布值的属性的SplitInformation是$ log_2n $。 这些相对较大的分母显着影响属性在ID3算法迭代后成为最佳属性的机会,并有助于避免在训练数据上表现特别好但在其外部表现不佳的选择。

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子