登录
首页精彩阅读机器学习中的有监督和无监督都包括些什么?
机器学习中的有监督和无监督都包括些什么?
2020-05-29
收藏


机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测数字答案,例如下个月在曼哈顿商店出售的小部件的数量)。

无监督学习可进一步分为聚类(查找类似对象的组,例如跑鞋,步行鞋和正装鞋),关联(查找对象的常见序列,例如咖啡和奶油)和降维(投影,特征选择) ,以及特征提取。

分类算法

分类问题是有监督的学习,要求在两个或多个类别之间进行选择,通常为每个类别提供概率。除了需要大量高级计算资源的神经网络深度学习之外,最常见的算法是朴素贝叶斯决策树逻辑回归,K最近邻和支持向量机SVM)。也可以使用集成方法(模型的组合),例如“随机森林”,其他“装袋”方法以及增强方法(例如,AdaBoost和XGBoost)。

回归算法

回归问题是有监督的学习,要求模型预测数字。最简单,最快的算法是线性(最小二乘)回归,但一般不应止步于此,因为它通常会返回一个中等的结果。其他常见的机器学习回归算法(缺少神经网络)包括朴素贝叶斯决策树,K最近邻,LVQ(学习矢量量化),LARS套索,弹性网,随机森林,AdaBoost和XGBoost。值得注意的是,用于回归和分类的机器学习算法之间存在一些重叠。

聚类算法

聚类问题是一种无监督的学习问题,它要求模型查找相似数据点的组。最受欢迎的算法是K-Means聚类;其他包括均值漂移聚类,DBSCAN(基于噪声的应用程序基于空间的聚类),GMM(高斯混合模型)和HAC(分层聚类)。

降维算法

降维是一个无监督的学习,它要求模型删除或组合对结果影响很小或没有影响的变量。这通常与分类或回归结合使用。降维算法包括删除具有许多缺失值的变量,删除具有低方差的变量,决策树随机森林,删除或组合具有高相关性的变量,后向特征消除,前向特征选择,因子分析和PCA(主成分分析)。

优化方法

训练和评估可以通过优化监督算法的参数权重,找到最适合数据真实性的一组值,从而将监督学习算法转变为模型。算法通常将最速下降的变量用于优化程序,例如随机梯度下降,它是从随机起始点多次执行的最速下降。

数据分析咨询请扫描二维码

客服在线
立即咨询