我有带有大量标记数据的数据集(假设有k个类)。我还有另一个小得多的数据集,其中包含我想要标记的未标记数据。问题是在第二个数据集中,类的数量不必与第一个数据集中的类数相同(更准确地说,可能有更多的类)。换句话说,来自未标记数据集的一些对象可以分类到k个可能的类之一,因为它们“离它们太近了”,但是一些对象应该被分类到新的类中。
真实世界的例子:在某些应用程序中,类的数量会随着时间的推移而增加。例如,已知物种的数量随着时间的推移而增加,所以当我在自然界中看到任何未知的植物时,生物学家可以对其进行分类或说这是新发现(新类别)。
有没有处理这种分类的技术?任何帮助表示赞赏。