热线电话:13121318867

登录
2018-11-28 阅读量: 728
数据离散化

数值型数据转变为类别型数据的过程是数据离散化(Data Discretization)。数据离散化主要指将连续型变量进行分箱,使用分箱后的数据代替原始数据。离散化可以通过人工指定分箱值进行离散化,或采用等分离散、等宽离散化,通过与目标变量的比较进行离散可以提升模型效果,也是常采用的方法。因为,数值型属性常常是模型不稳定的来源之一,常常我们会发现分类模型在训练数据集的预测准确度很高,但在测试数据集中的准确度却大幅度下滑,其中一个相当大的原因就是,许多的条件属性(尤其是数值型条件属性),在目标属性值上的分布,训练数据集与测试数据集的差异很大。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子