k近邻_CDA答疑社区

zxq997

2018-11-26 阅读量: 1254

k近邻

K最近邻分类(KNN)是一种惰性学习法(Lazy Learning)，在提供训练数据集时只做少量的工作，而在进行分类时才进行大量的运算，因此也成为给予实例的学习(Instance-based Learning)。KNN即在数据进行分类时，将未知类别的数据归类到与它们最相似的带有标记的案例所在的类。对于训练集中的每一个记录，KNN确定该记录与训练数据集中该记录相似度“最近”的K条记录，其中K是一个预先制定的整数，未标记的测试实例被分配到K个近邻中占比最大的那个类中。KNN的优点是：对数据的分布没有要求，训练阶段很快。缺点是：不产生模型，在发现特征之间的关系上能力有限，分类阶段很慢，类别变量和缺失数据需要额外的处理。

K最邻近算法的主要思想是将需要分类的数据与训练数据相比对，在事先指定的范围内在训练数据中找到与待分类数据距离最近的训练数据，再根据这些数据中的类别，将待分类的记录并归到最可能的类别中。这里，训练数据的分类必须已知；事先指定的范围可以是最相似数据的个数阈值K，也可以是以一定距离R为半径的圆周；数据间的相似程度一般使用欧式距离度量。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子