是否有一种聚类算法可以接受一些聚类作为输入并输出更多聚类?

数据挖掘 机器学习 分类 nlp 聚类 标签
2022-02-16 18:38:28

任务如下:我有一些我不太了解的数据。最后的任务是构建一个分类器,将样本分为几类。有些类别非常清晰,我们可以轻松地将它们用作分类器的标签。但我想可能还有更多有用的类别,因为现在我的大多数样本都不属于任何类别由于我不是特定领域的专家,我想使用一些聚类算法来展示可能的标签想法。当使用传统的聚类算法时,他们会在我不感兴趣的数据中找到各种模式。

所以我正在寻找一种方法来告诉算法:“嘿,在我的数据中找到一些集群,但请考虑现有的集群(或标记的数据)。” 这应该告诉聚类算法我对什么感兴趣,对什么不感兴趣。

这样的事情存在吗?或者任何其他想法如何解决寻找额外标签的问题?

顺便说一句:就我而言,我正在做 NLP。

2个回答

您正在描述半监督学习,其中训练数据集仅被部分标记。

解决该问题的一组常见技术是主动学习在主动学习中,有一个学习循环,其中算法做出预测,而人类纠正这些预测。

预聚类是一种特定的主动学习技术,用于解决您描述的问题。目标是重复选择最具代表性的训练示例来添加新标签,并避免重复标记同一集群中的样本。Nguyen 和 Smeulders 的Active Learning Using Pre-clustering ”进行了更详细的介绍。

你基本上有部分标记的数据。无论标签如何,您都可以进行聚类,然后将未标记的数据分配给您在其集群中找到的大多数标签。

可以使用 KNN 完成相同的方法。只需简单地在训练数据的验证拆分上尝试具有不同 K 和指标的 KNN,当它显示出良好的性能时,将其应用于整个数据并猜测未标记样本的标签。