登录
首页精彩阅读机器学习常用算法的优缺点之聚类算法和排序算法
机器学习常用算法的优缺点之聚类算法和排序算法
2019-04-01
收藏

机器学习中,有两种算法是比较常见的,分别是K-Means聚类和排序算法,在这篇文章中我们就简单给大家介绍一下关于这两种算法的优缺点,方便大家能够更好了解这两种算法。

首先给大家介绍一下K-Means聚类算法,其实这是一种简单的聚类算法,具体就是把n的对象根据他们的属性分为k个分割,k< n。 算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。

那么这种算法的优点是什么呢?第一就是算法简单,容易实现。第二就是算法速度很快,第三就是对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度大约是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。通常k<<n。这个算法通常局部收敛。第四就是算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的,且簇与簇之间区别明显时,聚类效果较好。

那么这种算法的缺点具体体现在六点,第一就是对数据类型要求较高,适合数值型数据。第二就是可能收敛到局部最小值,在大规模数据上收敛较慢。第三就是分组的数目k是一个输入参数,不合适的k可能返回较差的结果。第四就是对初值的簇心值敏感,对于不同的初始值,可能会导致不同的聚类结果。第五就是不适合于发现非凸面形状的簇,或者大小差别很大的簇。第六就是对于”噪声”和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。

下面我们就给大家介绍一下排序算法(PageRank),其实PageRank是google的页面排序算法,是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性。那么PageRank优点就是完全独立于查询,只依赖于网页链接结构,可以离线计算。而PageRank缺点就是PageRank算法忽略了网页搜索的时效性,同时旧网页排序很高,存在时间长,积累了大量的in-links,拥有最新资讯的新网页排名却很低,因为它们几乎没有in-links。

在这篇文章中我们给大家介绍了关于机器学习的相关方法,其实这些机器学习的算法都是十分实用的,我们在学习机器学习的时候只有对算法的实际情况了如指掌才能够更好的理解机器学习

数据分析咨询请扫描二维码

客服在线
立即咨询