任务如下:我有一些我不太了解的数据。最后的任务是构建一个分类器,将样本分为几类。有些类别非常清晰,我们可以轻松地将它们用作分类器的标签。但我想可能还有更多有用的类别,因为现在我的大多数样本都不属于任何类别。由于我不是特定领域的专家,我想使用一些聚类算法来展示可能的标签想法。当使用传统的聚类算法时,他们会在我不感兴趣的数据中找到各种模式。
所以我正在寻找一种方法来告诉算法:“嘿,在我的数据中找到一些集群,但请考虑现有的集群(或标记的数据)。” 这应该告诉聚类算法我对什么感兴趣,对什么不感兴趣。
这样的事情存在吗?或者任何其他想法如何解决寻找额外标签的问题?
顺便说一句:就我而言,我正在做 NLP。