使用 t 检验比较两个分类器准确度结果的统计显着性

机器算法验证 机器学习 统计学意义 分类 t检验
2022-01-16 12:16:37

我想比较两个分类器的统计显着性的准确性。两个分类器都在同一个数据集上运行。这使我相信我应该使用我一直在阅读的内容中的一个样本 t 检验。

例如:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着?

还是我应该使用另一个测试?

3个回答

如果您只训练分类器一次,我可能会选择McNemar 的测试。David Barber 还提出了一个相当简洁的贝叶斯测试,这对我来说似乎相当优雅,但并未广泛使用(在他的书中也提到过)。

补充一下,正如 Peter Flom 所说,只要查看性能差异和样本大小,答案几乎肯定是“是”(我引用的数字是测试集性能而不是训练集性能)。

顺便说一句,Japkowicz 和 Shah 最近有一本关于“评估学习算法:分类视角”的书,我还没有读过,但它看起来像是解决这类问题的有用参考。

我可以告诉你,甚至不用运行任何东西,这种差异在统计上将是非常显着的。它通过了 IOTT(眼间创伤测试 - 它在您的眼睛之间撞击)。

但是,如果您确实想进行测试,则可以将其作为两个比例的测试来进行-这可以通过两个样本的 t 检验来完成。

但是,您可能希望将“准确性”分解为其组成部分;敏感性和特异性,或假阳性和假阴性。在许多应用中,不同错误的代价是完全不同的。

由于在这种情况下准确度是正确分类的样本的比例,我们可以应用关于两个比例系统的假设检验。

p^1p^2分别是从分类器 1 和 2 获得的准确度,以及n是样本数。在分类器 1 和 2 中正确分类的样本数为x1x2分别。

p^1=x1/n,p^2=x2/n

检验统计量由下式给出

Z=p^1p^22p^(1p^)/n在哪里p^=(x1+x2)/2n

我们的目的是证明分类器 2 的全局精度,即p2, 优于分类器 1,即p1. 这将我们的假设框架为

  • H0:p1=p2(零假设说明两者相等)
  • Ha:p1<p2(声称新的比现有的更好的替代hypotyesis)

拒绝区域由下式给出

Z<zα(如果真的拒绝H0并接受Ha)

在哪里zα从与显着性水平相关的标准正态分布中获得,α. 例如z0.5=1.645为 5% 的显着性水平。这意味着如果关系Z<1.645是真的,那么我们可以用 95% 的置信水平说 (1α) 分类器 2 比分类器 1 更准确。

参考:

  1. R. Johnson 和 J. Freund,Miller 和 Freund 的工程师概率和统计,第 8 版。Prentice Hall International,2011 年。(主要来源)
  2. 假设检验——简明公式总结(取自[1])