如何处理聚类算法的异常值?

数据挖掘 聚类 离群值
2022-03-06 16:05:08

我想知道在使用非监督聚类算法时处理异常值的最佳方法是什么?

2个回答

如果您有异常值,最好的方法是使用可以处理它们的聚类算法

例如,当您选择足够大的 minpts 时,DBSCAN 聚类对异常值具有鲁棒性。不要使用 k-means:平方误差方法对异常值很敏感。但是有一些变体,例如 k-means——用于处理异常值。

您可以在应用聚类技术之前使用 Standard Scaler 对数据进行标准化,也可以使用 k-mediod 聚类算法。您还可以使用 z 分数分析来删除异常值。