K最近邻_CDA答疑社区

809669515

2018-10-31 阅读量: 1186

K最近邻

K最近邻是一种简单的算法，其存储所有可用情况并基于相似性度量（例如，距离函数）对新情况进行分类。KNN已经在1970年代初作为非参数技术用于统计估计和模式识别。

算法

案例通过其邻居的多数票进行分类，案例被分配给由距离函数测量的其K个最近邻居中最常见的类。如果K = 1，则将该情况简单地分配给其最近邻居的类。

还应注意，所有三个距离测量仅对连续变量有效。在分类变量的情况下，必须使用汉明距离。当数据集中存在数值和分类变量的混合时，它还会出现0到1之间数值变量标准化的问题。

选择K的最佳值最好先检查数据。通常，较大的K值会更精确，因为它会降低整体噪音，但不能保证。交叉验证是通过使用独立数据集来验证K值来回顾性地确定良好K值的另一种方式。从历史上看，大多数数据集的最佳K值在3-10之间。这比1NN产生更好的结果。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子