机器算法验证 - 仅具有一个标签的训练数据的二元分类器 - 吾爱随笔录

仅具有一个标签的训练数据的二元分类器

机器算法验证机器学习分类

2022-04-13 05:30:12

在一些现实生活中的问题（例如身份验证）中，我们只有一个标签的训练数据（x 已通过身份验证），而另一个标签没有任何数据或只有很少的条目（x 是冒名顶替者）。

为了调整分类器以处理针对其他/未知条目的标签，我们应该进行哪些更改？

2个回答

这实际上是一个普遍的情况，例如在工业质量控制中，您要决定一批产品是否适合销售。医学诊断（如果不是鉴别诊断）也经常面临同样的问题。

所谓的一类或一元分类器解决了这个问题。这个想法是独立于可能的其他类对“in”类进行建模。

在化学计量学中，SIMCA是一种流行的方法。基本上，您将您的类压缩为 PCA 模型，然后开发一个边界，在该边界之外您认为该案例属于该类的可能性很小。（对于多个独立的类，您可以分别为每个类执行此操作。）

DM 税：一类分类——在没有反例的情况下进行概念学习，代尔夫特理工大学，2001 年开发了一类 SVM。

如果我对您的理解正确，您的（随机选择的？）训练集中有很多 A 类（auth.）数据和 B 类（冒名顶替者）的几乎所有数据？

来自维基百科（伪计数），

在任何观察到的数据集或样本中，特别是对于低概率事件和/或小数据集，都有可能没有发生事件。因此，它观察到的频率为零，显然意味着概率为零。这是一种过度简化，不准确且通常无益，尤其是在基于概率的机器学习技术中，例如人工神经网络和隐马尔可夫模型。通过人为地调整罕见（但并非不可能）事件的概率，使这些概率不完全为零，我们避免了零频率问题。另见克伦威尔法则。

因此，我会人为地包含其他非常罕见的标签/类别的一些数据。

其它你可能感兴趣的问题

上一篇最后一个事件是成功的超几何分布是什么？下一篇人类语音中的词熵/频率