机器算法验证 - 计算提供的分类器标签正确的概率 - 吾爱随笔录

二元 SVM 分类器提供标签 $y_c^{(i)}$ 对于每个 $i$ - 提供的样本。这不能保证与它的真实标签相对应 $y^{(i)}$ ，因为分类器可能已经计算出一个对某些样本进行错误分类的边界。

让我们假设以某种方式，例如在线性内核的情况下，我能够找到距离 $d$ 在。。之间 $i$ -th 样本和边界，如图所示。

在此处输入图像描述

这个距离以某种方式告诉我分类器在说明 $i$ -th 样本属于所选类别（正样本或负样本）。

我的问题

当一堂课 $C$ 提供（即，要么 $C='Y'$ 或者 $C='N'$ 对于二进制分类），如何计算以下概率？

$Pr(y^{(i)} = C\quad |\quad y_c^{(i)})$

即：概率 $C$ 是真正的标签 $i$ -th 个样本，假设分类器给出了意见 $y_c^{(i)}$ 样品上。

我的解决方案（以及为什么它不起作用）

我尝试通过使用分类器的真阳性率进行概括，即：

$Pr(y^{(i)} = C\quad |\quad y_c^{(i)}) = \frac{n_{C,y_c^{(i)}}}{\sum_{C'}n_{C',y_c^{(i)}}}$

在哪里 $n_{C,y_c^{(i)}}$ 是类的样本数 $C$ 分类器分类为 $y_c^{(i)}$ . 但是，对于集合中的每个样本，此度量保持不变。

我想拥有什么

相反，我想要一个取决于分类器置信度的度量，或者，不知何故，取决于距离 $d$ 在边界上计算。

你能提供一些建议吗？