最近邻算法的选择

阿抽哥哥

2018-11-16 阅读量: 1780

最近邻算法的选择

对于给定数据集，K近邻的最优算法选择（algorithm）取决于多个因素：

brute force 查询时间以O[DN]增长。
ball tree 查询时间大约以O[Dlog(N)]增长。
k-d tree 的查询时间变化是很难精确描述的，对于较小的D(小于20)的成本大约是O[Dlog(N)]，并且 k-d tree 更加有效。对于较大的D成本的增加接近O[DN]，由于树结构引起的开销会使得查询效率比 brute forse 还要低。

对于小数据集 (N小于30)，log(N)相当于N，brute forse 暴力算法比基于树的算法更加有效。

brute force 时间不受数据结构的影响。
ball tree 和 k-d tree 的数据结构对查询时间影响很大。一般地，小维度的 sparser (稀疏) 数据会使查询更快。因为 k-d tree 的内部表现形式是与参数轴对齐的，对于任意的结构化数据它通常不会表现的像 ball tree 那样好。