在多标签分类问题中,如何识别不在训练标签或类中的未知类。在预测阶段,分类器将数据放在任何类中,即使它与任何类或标签都不相关?对于二进制,分类的预测概率是 50/50,因此如何将这些解释为混淆或只是异常,但是当数据出现在两个类中或与两个类相似时,我们可以理解这种情况,但是应该在任何类中的数据。那么,如何处理多类的相同情况或可以为未知和不相关数据提供适当分类的通用解决方案。
如何识别机器学习中的未知类?
数据挖掘
机器学习
分类
监督学习
2022-02-21 01:22:38
1个回答
我最近遇到了一个非常相似的问题。正如您所提到的,这是一个新奇/异常检测的案例。
对于这些类型的问题,大致有两种“有效”的解决方案:
您可以检查所有类的输出层的softmax 后验概率值并将其设置为阈值(例如 0.5)。如果所有其他类的概率<0.5,那么这个测试用例肯定是一个异常值(在这种情况下我们的未知类)。
添加一个垃圾类并对其进行训练。但是,为这个未知类收集/随机生成特征有时可能会变得乏味和困难。它取决于应用程序和类的数量。如果您的课程数量较少(<10),那么您也可以尝试一下。
最好的办法是同时尝试两者,看看哪一个最适合您的应用程序的目的,以及哪个可以积极提高您的预测准确性。
其它你可能感兴趣的问题