多类分类任务,其中每个类在测试集中只出现一次

数据挖掘 多类分类
2022-03-10 18:40:10

我有一个多类分类问题,在测试集中,每个可能的类只有一个条目。在我的特定问题中,我们想猜测文本的作者,我们有 20 位不同的作者。测试集包含 20 个文本,每个作者一个。

我在训练数据中有很多每个作者的文本。我无法更改测试集的内容,我需要对这些特定文本进行分类。

  • 这种任务是否有名称,所以我可以更轻松地在谷歌上搜索以前的工作?我不是专门谈论作者身份,而是每个班级都有 1 个条目。

  • 你有什么算法可以很好地完成这项任务吗?也许可以提供排名结果或置信度值的东西?

谢谢

2个回答

在谈论测试数据时,我们可以有每个类的任意数量的示例进行推理。如果它有 20 个类,每个类有一个示例,则无关紧要。

对于此类问题,您可以使用 CNN 分类器,但如果一本书可以由多个作者编写,您应该在最后一层使用 sigmoid 激活而不是使用 softmax。

您可以看到这篇文章解决了与您类似的用例 -链接

每个类只有一个样本,适当的评估指标是有限的。无法估计性能的可变性。

最好只查看一次测试数据集,因此当前设置的价值有限。

一个相关的机器学习领域是一次性学习

将问题重新定义为案例研究可能会更好,因为没有足够的数据来进行有效的机器学习。