热线电话:13121318867

登录
2018-10-31 阅读量: 844
K最近邻

K最近邻是一种简单的算法,其存储所有可用情况并基于相似性度量(例如,距离函数)对新情况进行分类。KNN已经在1970年代初作为非参数技术用于统计估计和模式识别。

算法

案例通过其邻居的多数票进行分类,案例被分配给由距离函数测量的其K个最近邻居中最常见的类。如果K = 1,则将该情况简单地分配给其最近邻居的类。

还应注意,所有三个距离测量仅对连续变量有效。在分类变量的情况下,必须使用汉明距离。当数据集中存在数值和分类变量的混合时,它还会出现0到1之间数值变量标准化的问题。

选择K的最佳值最好先检查数据。通常,较大的K值会更精确,因为它会降低整体噪音,但不能保证。交叉验证是通过使用独立数据集来验证K值来回顾性地确定良好K值的另一种方式。从历史上看,大多数数据集的最佳K值在3-10之间。这比1NN产生更好的结果。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子