在一些现实生活中的问题(例如身份验证)中,我们只有一个标签的训练数据(x 已通过身份验证),而另一个标签没有任何数据或只有很少的条目(x 是冒名顶替者)。
为了调整分类器以处理针对其他/未知条目的标签,我们应该进行哪些更改?
在一些现实生活中的问题(例如身份验证)中,我们只有一个标签的训练数据(x 已通过身份验证),而另一个标签没有任何数据或只有很少的条目(x 是冒名顶替者)。
为了调整分类器以处理针对其他/未知条目的标签,我们应该进行哪些更改?
如果我对您的理解正确,您的(随机选择的?)训练集中有很多 A 类(auth.)数据和 B 类(冒名顶替者)的几乎所有数据?
来自维基百科(伪计数),
在任何观察到的数据集或样本中,特别是对于低概率事件和/或小数据集,都有可能没有发生事件。因此,它观察到的频率为零,显然意味着概率为零。这是一种过度简化,不准确且通常无益,尤其是在基于概率的机器学习技术中,例如人工神经网络和隐马尔可夫模型。通过人为地调整罕见(但并非不可能)事件的概率,使这些概率不完全为零,我们避免了零频率问题。另见克伦威尔法则。
因此,我会人为地包含其他非常罕见的标签/类别的一些数据。