机器算法验证 - 分类器成功率和置信区间 - 吾爱随笔录

分类器成功率和置信区间

机器算法验证分类

2022-04-07 14:29:51

假设我们在测试集上测量分类器误差并获得一定的成功率——比如 75%。现在，当然，这只是一种衡量标准——如何计算“真实”成功率？肯定会接近 75%，但有多接近？

我知道它与置信区间有关，但现在我迷失在置信区间中。我认为我的示例类似于维基百科上的示例，他们查看人造黄油杯的重量分布。（抱歉，这里没有渲染数学，所以我创建了一个屏幕截图 - 您可能还想浏览维基百科文章中的相应部分）。

在此处输入图像描述

我有以下问题：

为什么他们使用上述标准误差公式？
这个Ф^{-1}(0.975)=1.96 是从哪里来的？
为了解决我的“真实成功率”问题，我是否应该重复估计 N 次，然后应用与人造黄油杯相同的推理？

1个回答

假设您的数据是正态分布的，那么可以使用标准误差，因为它是具有相同期望（均值）的正态分布数据所期望的误差。
我们感兴趣的是有多少样本落入分布的“尾部”——即有多少样本落在某个范围之外。是置信区间 - 即如果我们设置，那么这定义了在理想情况下 95% 的数据应该位于的边界。我们使用逆 CDF来计算这些边界是什么。这也称为“Q 函数”，可以用误差函数表示为： $\alpha$ $\alpha = 0.95$ $\phi^-1$

$Q(x) =\tfrac{1}{2} - \tfrac{1}{2} \operatorname{erf} \Bigl( \frac{x}{\sqrt{2}} \Bigr)=\tfrac{1}{2}\operatorname{erfc}(\frac{x}{\sqrt{2}}).$ （希望数学很快就会呈现出来！）

这在matlab中可用。所需的计算是2*(1-erfcinv(0.975))或1-erfcinv(0.95)因为 $Q(x) = 1-\phi(x)$

这实际上与我问的另一个问题有关。如果您期望分类分数呈正态分布，答案将是肯定的。但是我不确定这是否属实——您可能期望分数偏向 1（如果您使用准确性）并且几乎可以肯定不是对称的（即倾斜）。正如我的问题的一个答案所给出的那样，也许像McNemar's test这样的东西可能有用，尽管这确实是为了比较分类器。我想你可以为单个分类器做的最好的事情是提供许多训练/测试拆分的平均值和标准差，这是研究论文中的常见做法。

其它你可能感兴趣的问题

上一篇如何处理数据中随时间变化的区域定义？下一篇R中重复测量和事后单一比较的非参数检验？