809669515

2018-10-31   阅读量: 648

数据分析师 机器学习 数据挖掘

K最近邻

扫码加入数据分析学习群

K最近邻是一种简单的算法,其存储所有可用情况并基于相似性度量(例如,距离函数)对新情况进行分类。KNN已经在1970年代初作为非参数技术用于统计估计和模式识别。

算法

案例通过其邻居的多数票进行分类,案例被分配给由距离函数测量的其K个最近邻居中最常见的类。如果K = 1,则将该情况简单地分配给其最近邻居的类。

还应注意,所有三个距离测量仅对连续变量有效。在分类变量的情况下,必须使用汉明距离。当数据集中存在数值和分类变量的混合时,它还会出现0到1之间数值变量标准化的问题。

选择K的最佳值最好先检查数据。通常,较大的K值会更精确,因为它会降低整体噪音,但不能保证。交叉验证是通过使用独立数据集来验证K值来回顾性地确定良好K值的另一种方式。从历史上看,大多数数据集的最佳K值在3-10之间。这比1NN产生更好的结果。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子