分箱或离散化是将数值变量转换为分类对应物的过程。例如,将Age的值分为20-39,40-59和60-79等类别。数值变量通常在基于频率表(例如,决策树)的建模方法中离散化。此外,分箱可以通过降低噪声或非线性来提高预测模型的准确度。最后,分箱可以轻松识别异常值,数值变量的无效值和缺失值。
有两种类型的分箱,无监督和监督。