我有一个包含 4 个类的数据集,我正在尝试使用一个集成模型,其中每个基本分类器都使用一部分数据进行训练。为了沿着分类器分布数据,我使用了 KMeans 算法。问题在于,在某些情况下,一个集群只有一个类,并且适合该数据的分类器在预测中表现不佳。除此之外,每个集群只有一个类使我无法使用某些结构(例如逻辑回归、SVM 等)。
我想知道是否有任何聚类技术可以保持数据的公平分布,考虑到每个集群不止一个类。我知道聚类是无监督学习并且不考虑每个样本的类别,但我没有任何其他想法,而不是使用另一种技术而不是 KMeans。
谢谢