2018-11-28
阅读量:
728
数据离散化
数值型数据转变为类别型数据的过程是数据离散化(Data Discretization)。数据离散化主要指将连续型变量进行分箱,使用分箱后的数据代替原始数据。离散化可以通过人工指定分箱值进行离散化,或采用等分离散、等宽离散化,通过与目标变量的比较进行离散可以提升模型效果,也是常采用的方法。因为,数值型属性常常是模型不稳定的来源之一,常常我们会发现分类模型在训练数据集的预测准确度很高,但在测试数据集中的准确度却大幅度下滑,其中一个相当大的原因就是,许多的条件属性(尤其是数值型条件属性),在目标属性值上的分布,训练数据集与测试数据集的差异很大。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论