分类器成功率和置信区间

机器算法验证 分类
2022-04-07 14:29:51

假设我们在测试集上测量分类器误差并获得一定的成功率——比如 75%。现在,当然,这只是一种衡量标准——如何计算“真实”成功率?肯定会接近 75%,但有多接近?

我知道它与置信区间有关,但现在我迷失在置信区间中。我认为我的示例类似于维基百科 上的示例,他们查看人造黄油杯的重量分布。(抱歉,这里没有渲染数学,所以我创建了一个屏幕截图 - 您可能还想浏览维基百科文章中的相应部分)。

       在此处输入图像描述

我有以下问题:

  1. 为什么他们使用上述标准误差公式?
  2. 这个Ф^{-1}(0.975)=1.96 是从哪里来的?
  3. 为了解决我的“真实成功率”问题,我是否应该重复估计 N 次,然后应用与人造黄油杯相同的推理?
1个回答
  1. 假设您的数据是正态分布的,那么可以使用标准误差,因为它是具有相同期望(均值)的正态分布数据所期望的误差。

  2. 我们感兴趣的是有多少样本落入分布的“尾部”——即有多少样本落在某个范围之外。是置信区间 - 即如果我们设置,那么这定义了在理想情况下 95% 的数据应该位于的边界。我们使用逆 CDF来计算这些边界是什么。这也称为“Q 函数”,可以用误差函数表示为:αα=0.95ϕ1

Q(x)=1212erf(x2)=12erfc(x2).(希望数学很快就会呈现出来!)

这在matlab中可用。所需的计算是2*(1-erfcinv(0.975))1-erfcinv(0.95)因为Q(x)=1ϕ(x)

  1. 这实际上与我问的另一个问题有关。如果您期望分类分数呈正态分布,答案将是肯定的。但是我不确定这是否属实——您可能期望分数偏向 1(如果您使用准确性)并且几乎可以肯定不是对称的(即倾斜)。正如我的问题的一个答案所给出的那样,也许像McNemar's test这样的东西可能有用,尽管这确实是为了比较分类器。我想你可以为单个分类器做的最好的事情是提供许多训练/测试拆分的平均值和标准差,这是研究论文中的常见做法。