对数值属性作离散化,有下列数个优点:
1、可使数据精简,降低数据的复杂度,让数据更容易被解释;
2、可支持许多无法处理数值型属性的分类算法。例如,贝氏分类(Bayesian Classification)算法、以关联规则(Association Rules)为基础的分类算法等;
3、可提高分类器的稳定性,进而提升分类模型的准确度;
4、可找出条件属性在目标属性上的趋势(Trend),有助于未来的解读。
数据离散化的方法有如下几种:
1、人工分离法。依据对数据的认知、专家的建议、普遍存在的现象,将数据数值分离出数个区间,如年龄可以分离出下列三个区间,(0, 30]、(30,60]、(60,120],并分别对应到“青年”、“中年”和“老年”等三个数据数值。但是有时分类比较困难,专家也无法给出合理的检验,这时需要使用自动化的方法。
2、自动化分离—装箱法(Binning Method)。装箱法主要利用数据集合中数据数值的分布情形来进行区间分离,而每一个区间称为箱子(Bin)。装箱法主要分为两种,相等宽度(Equal-Width-Interval)装箱法和相等深度(Equal-Frequency-Interval)装箱法。相等宽度(Equal-Width-Interval)装箱法是在使用者所给定之箱子个数n下,依据排序过后数据数值之最大值与最小值切割成n个等宽箱子。如一组年龄数据28、29、30、31、32、35、36要进行相等宽带装箱,在使用者所给定之箱子个数为3下,每一个箱子的宽度为(36-28)/3 = 2.67,经四舍五入后为3。所以:
– 箱子一:28, 29, 30
– 箱子二:31, 32, 33,因为数据中没有33,所以箱子二为31, 32。
– 箱子三:34, 35, 36,因为数据中没有34,所以箱子二为35, 36。
相等宽度装箱法有一些问题,首先,通过等宽分箱可能会有的箱子存在空值,比如上例中如果没有31,32,则箱子二为空箱;其次,该方法受极值影响很大,因为箱子的宽度是根据数据的最大值和最小值来确定的。
因为等宽装箱法有一些缺点,所以有人又提出来了相等深度(Equal-Frequency-Interval)装箱法,即在使用者所给定之箱子个数n下,依据数据数值的数量切割成n个数量相等箱子。例如,会员数据表中总共有7笔数据记录(28、29、30、31、32、35、36),在用户所给定之箱子个数为3下,每一个箱子可装载之数据笔数为为7/3 = 2.33,经四舍五入后为2。所以,数据按照2,2,3分入到各个箱子中:
– 箱子一:28, 29
– 箱子二:30, 31
– 箱子三:32, 35, 36
然而,将数值属性离散化除了让数据精简、稳定模型外,如何让分析人员易于理解与解释也是非常重要的。一个易于理解与解释的离散化结果是,条件属性在目标属性上能够看出明显的趋势性(Trend)。








暂无数据