数据挖掘 - 使用高度相关的分类数据聚类进行异常检测 - 吾爱随笔录

我的数据有两列，并且都高度相关，例如，如果 column1 的值为 ABC，则 column2 应该是 XYZ，即 ABC-->XYZ。如果 column2 有其他内容，则为异常。同样，有数千种组合。我已经尝试过 KModes 聚类，其中许多聚类 = column1 中的唯一值。然而，每个簇的密度不相等，因此一些高密度的坏数据被归类为正常，低密度的好数据被标记为异常。

我想要一个无监督的算法，我可以强制它使用 column1 作为聚类的主要标准。对于 column1 的每个唯一值，column2 数据出现频率最高的数据就是好数据。休息是异常的。请建议什么是最好的算法以及如何解决这个问题。