我的数据有两列,并且都高度相关,例如,如果 column1 的值为 ABC,则 column2 应该是 XYZ,即 ABC-->XYZ。如果 column2 有其他内容,则为异常。同样,有数千种组合。我已经尝试过 KModes 聚类,其中许多聚类 = column1 中的唯一值。然而,每个簇的密度不相等,因此一些高密度的坏数据被归类为正常,低密度的好数据被标记为异常。
我想要一个无监督的算法,我可以强制它使用 column1 作为聚类的主要标准。对于 column1 的每个唯一值,column2 数据出现频率最高的数据就是好数据。休息是异常的。请建议什么是最好的算法以及如何解决这个问题。