python 实例简述 k-近邻算法的基本原理-CDA数据分析师官网

热线电话：13121318867

python 实例简述 k-近邻算法的基本原理

2018-01-17

python 实例简述 k-近邻算法的基本原理

首先我们一个样本集合，也称为训练样本集，在训练样本集中每个数据都存在一个标签用来指明该数据的所属分类。在输入一个新的未知所属分类的数据后，将新数据的所有特征和样本集中的所有数据计算距离。从样本集中选择与新数据距离最近的 k 个样本，将 k 个样本中出现频次最多的分类作为新数据的分类，通常 k 是小于20的，这也是 k 的出处。
k近邻算法的优点：精度高，对异常值不敏感，无数据输入假定。
k 近邻算法的缺点：时间复杂度和空间复杂度高
数据范围：数值型和标称型
简单的k 近邻算法实现
第一步：使用 python 导入数据
from numpy import *
import operator
'''simple kNN test'''
#get test data
def createDataSet():
        group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
        labels=['A','A','B','B']
        return group,labels
作为例子，直接创建数据集和标签，实际应用中往往是从文件中读取数据集和标签。array 是 numpy 提供的一种数据结构，用以存储同样类型的数据，除了常规数据类型外，其元素也可以是列表和元组。这里 group 就是元素数据类型为 list 的数据集。labels 是用列表表示的标签集合。其中 group 和 labels 中的数据元素一一对应，比如数据点[1.0,1.1]标签是 A，数据点[0,0.1]标签是 B。
第二步：实施 kNN 算法
kNN 算法的自然语言描述如下：
1. 计算已知类别数据集中的所有点与未分类点之间的距离。
2. 将数据集中的点按照与未分类点的距离递增排序。
3. 选出数据集中的与未分类点间距离最近的 n 个点。
4. 统计这 n 个点中所属类别出现的频次。
5. 返回这 n 个点中出现频次最高的那个类别。
实现代码：
def classify0(inX,dataSet,labels,k):
        dataSetSize=dataSet.shape[0]
        diffMat=tile(inX,(dataSetSize,1))-dataSet
        sqDiffMat=diffMat**2
        sqDistances=sqDiffMat.sum(axis=1)
        distances=sqDistances**0.5
        sortedDistIndicies=distances.argsort()
        classCount={}
        for i in range(k):
             voteIlabel=labels[sortedDistIndicies[i]]
             classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
             sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
        return sortedClassCount[0][0]
classify0函数中的四个参数含义分别如下：inX 是希望被分类的数据点的属性向量，dataSet 是训练数据集向量，labels 是标签向量，k 是 kNN 算法的参数 k。
接下来来看看本函数的语句都做了那些事。
第一行dataSetSize=dataSet.shape[0]，dataSet 是 array 类型，那么dataSet.shape表示 dataSet 的维度矩阵，dataSet.shape[0]表示第二维的长度，dataSet.shape[1]表示第一维的长度。在这里dataSetSize 表示训练数据集中有几条数据。
第二行tile(inX,(dataSetSize,1))函数用以返回一个将 inX 以矩阵形式重复(dataSetSize,1)遍的array，这样产生的矩阵减去训练数据集矩阵就获得了要分类的向量和每一个数据点的属性差，也就是 diffMat。
第三行**在 python 中代表乘方，那么sqDiffMat也就是属性差的乘方矩阵。
第四行array 的 sum 函数若是加入 axis=1的参数就表示要将矩阵中一行的数据相加，这样，sqDistances的每一个数据就代表输入向量和训练数据点的距离的平方了。
第五行不解释，得到了输入向量和训练数据点的距离矩阵。
第六行sortedDistIndicies=distances.argsort()，其中 argsort 函数用以返回排序的索引结果，直接使用 argsort 默认返回第一维的升序排序的索引结果。
然后创建一个字典。
接下来进行 k 次循环，每一次循环中，找到 i 对应的数据的标签，并将其所在字典的值加一，然后对字典进行递减的按 value 的排序。
这样循环完成后，classCount 字典的第一个值就是kNN 算法的返回结果了，也就是出现最多次数的那个标签。
二维的欧式距离公式如下，很简单：

相同的，比如说四维欧式距离公式如下：

第三步：测试分类器
在测试 kNN 算法结果的时候，其实就是讨论分类器性能，至于如何改进分类器性能将在后续学习研究中探讨，现在，用正确率来评估分类器就可以了。完美分类器的正确率为1，最差分类器的正确率为0，由于分类时类别可能有多种，注意在分类大于2时，最差分类器是不能直接转化为完美分类器的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

python numpy 特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇让大数据分析更有效的5种技术措施

下一篇R语言获取优化的k均值聚类

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

python 实例简述 k-近邻算法的基本原理

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】DBeaver 实战：实现两个库表结构同步的 ...

【CDA干货】t 检验与卡方检验：数据分析中的两大统 ...

CDA 数据分析师：解锁数据价值的专业力量 ...

人工智能对CDA数据分析领域的影响

【CDA干货】SPSS 语法使用详解

【CDA干货】SASEM 决策树：理论与实践应用 ...

CDA含金量分析

大数据时代对定性分析的影响

【CDA干货】K-S 曲线、回归与分类：数据分析中的重 ...

CDA 数据分析师考试全解析

大数据时代的隐患：繁荣背后的隐忧

【CDA干货】解析 F 边界检验：协整分析中的实用工具 ...

CDA 数据分析师报考条件详解：迈向专业认证的指南 ...

【CDA干货】通过 COX 回归模型诊断异常值 ...

【CDA干货】评判两组数据与初始数据准确值的方法 ...

CDA 数据分析师行业标准：构建数据人才的能力坐标系 ...

【CDA干货】反向传播神经网络：突破传统算法瓶颈的 ...

【CDA干货】MySQL 统计连续每天数据：从业务需求到 ...

抖音数据分析师：驱动平台增长的幕后推手 ...

【CDA干货】基于 SPSS 的中介效应分析结果解读：揭 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

python 实例简述 k-近邻算法的基本原理

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】DBeaver 实战：实现两个库表结构同步的 ...

【CDA干货】t 检验与卡方检验：数据分析中的两大统 ...

CDA 数据分析师：解锁数据价值的专业力量 ...

人工智能对CDA数据分析领域的影响

【CDA干货】SPSS 语法使用详解

【CDA干货】SASEM 决策树：理论与实践应用 ...

CDA含金量分析

大数据时代对定性分析的影响

【CDA干货】K-S 曲线、回归与分类：数据分析中的重 ...

CDA 数据分析师考试全解析

大数据时代的隐患：繁荣背后的隐忧

【CDA干货】解析 F 边界检验：协整分析中的实用工具 ...

CDA 数据分析师报考条件详解：迈向专业认证的指南​ ...

【CDA干货】通过 COX 回归模型诊断异常值 ...

【CDA干货】评判两组数据与初始数据准确值的方法 ...

CDA 数据分析师行业标准：构建数据人才的能力坐标系 ...

【CDA干货】反向传播神经网络：突破传统算法瓶颈的 ...

【CDA干货】MySQL 统计连续每天数据：从业务需求到 ...

抖音数据分析师：驱动平台增长的幕后推手 ...

【CDA干货】基于 SPSS 的中介效应分析结果解读：揭 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师报考条件详解：迈向专业认证的指南 ...