zxq997

2018-11-26   阅读量: 739

数据分析师 Python数据分析

k近邻

扫码加入数据分析学习群

K最近邻分类(KNN)是一种惰性学习法(Lazy Learning),在提供训练数据集时只做少量的工作,而在进行分类时才进行大量的运算,因此也成为给予实例的学习(Instance-based Learning)。KNN即在数据进行分类时,将未知类别的数据归类到与它们最相似的带有标记的案例所在的类。对于训练集中的每一个记录,KNN确定该记录与训练数据集中该记录相似度“最近”的K条记录,其中K是一个预先制定的整数,未标记的测试实例被分配到K个近邻中占比最大的那个类中。KNN的优点是:对数据的分布没有要求,训练阶段很快。缺点是:不产生模型,在发现特征之间的关系上能力有限,分类阶段很慢,类别变量和缺失数据需要额外的处理。

K最邻近算法的主要思想是将需要分类的数据与训练数据相比对,在事先指定的范围内在训练数据中找到与待分类数据距离最近的训练数据,再根据这些数据中的类别,将待分类的记录并归到最可能的类别中。这里,训练数据的分类必须已知;事先指定的范围可以是最相似数据的个数阈值K,也可以是以一定距离R为半径的圆周;数据间的相似程度一般使用欧式距离度量。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子