比较玩具数据集异常值检测的异常检测算法

啊啊啊啊啊吖

2018-12-09 阅读量: 1131

比较玩具数据集异常值检测的异常检测算法

对于每个数据集，15％的样本被生成为随机均匀噪声。该比例是给予OneClassSVM的nu参数的值和其他异常值检测算法的污染参数。除了局部异常因子（LOF）之外，内部和异常值之间的决策边界以黑色显示，因为当用于异常值检测时，它没有预测方法应用于新数据。

的svm.OneClassSVM被称为是对异常值敏感并因此对异常值检测不执行得非常好。当训练集未被异常值污染时，该估计器最适合于新颖性检测。也就是说，高维中的离群检测，或者对上层数据的分布没有任何假设是非常具有挑战性的，并且单类SVM可能在这些情况下根据其超参数的值给出有用的结果。

covariance.EllipticEnvelope假设数据是高斯数据并学习椭圆。因此，当数据不是单峰时，它会降级。但请注意，此估算器对异常值很稳健。

ensemble.IsolationForest并且neighbors.LocalOutlierFactor 似乎对多模态数据集表现得相当好。neighbors.LocalOutlierFactor对于第三数据集示出了优于其他估计器的优点，其中两种模式具有不同的密度。这一优势可以通过LOF的局部方面来解释，这意味着它只将一个样本的异常得分与其邻居的得分进行比较。

最后，对于最后一个数据集，很难说一个样本比另一个样本更异常，因为它们均匀分布在超立方体中。除了svm.OneClassSVM稍微过度拟合之外，所有估算者都为这种情况提供了不错的解决方案。在这种情况下，更仔细地观察样本的异常分数是明智的，因为良好的估计器应该为所有样本分配相似的分数。

虽然这些例子给出了一些关于算法的直觉，但这种直觉可能不适用于非常高维的数据。

最后，请注意模型的参数已经在这里精心挑选，但实际上它们需要进行调整。在没有标记数据的情况下，问题完全没有监督，因此模型选择可能是一个挑战。