仅具有一个标签的训练数据的二元分类器

机器算法验证 机器学习 分类
2022-04-13 05:30:12

在一些现实生活中的问题(例如身份验证)中,我们只有一个标签的训练数据(x 已通过身份验证),而另一个标签没有任何数据或只有很少的条目(x 是冒名顶替者)。

为了调整分类器以处理针对其他/未知条目的标签,我们应该进行哪些更改?

2个回答

这实际上是一个普遍的情况,例如在工业质量控制中,您要决定一批产品是否适合销售。医学诊断(如果不是鉴别诊断)也经常面临同样的问题。

所谓的一类或一元分类器解决了这个问题。这个想法是独立于可能的其他类对“in”类进行建模。

在化学计量学中,SIMCA是一种流行的方法。基本上,您将您的类压缩为 PCA 模型,然后开发一个边界,在该边界之外您认为该案例属于该类的可能性很小。(对于多个独立的类,您可以分别为每个类执行此操作。)

DM 税:一类分类——在没有反例的情况下进行概念学习,代尔夫特理工大学,2001 年开发了一类 SVM。

如果我对您的理解正确,您的(随机选择的?)训练集中有很多 A 类(auth.)数据和 B 类(冒名顶替者)的几乎所有数据?

来自维基百科(伪计数)

在任何观察到的数据集或样本中,特别是对于低概率事件和/或小数据集,都有可能没有发生事件。因此,它观察到的频率为零,显然意味着概率为零。这是一种过度简化,不准确且通常无益,尤其是在基于概率的机器学习技术中,例如人工神经网络和隐马尔可夫模型。通过人为地调整罕见(但并非不可能)事件的概率,使这些概率不完全为零,我们避免了零频率问题。另见克伦威尔法则。

因此,我会人为地包含其他非常罕见的标签/类别的一些数据。