我想比较两个分类器的统计显着性的准确性。两个分类器都在同一个数据集上运行。这使我相信我应该使用我一直在阅读的内容中的一个样本 t 检验。
例如:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着?
还是我应该使用另一个测试?
我想比较两个分类器的统计显着性的准确性。两个分类器都在同一个数据集上运行。这使我相信我应该使用我一直在阅读的内容中的一个样本 t 检验。
例如:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着?
还是我应该使用另一个测试?
如果您只训练分类器一次,我可能会选择McNemar 的测试。David Barber 还提出了一个相当简洁的贝叶斯测试,这对我来说似乎相当优雅,但并未广泛使用(在他的书中也提到过)。
补充一下,正如 Peter Flom 所说,只要查看性能差异和样本大小,答案几乎肯定是“是”(我引用的数字是测试集性能而不是训练集性能)。
顺便说一句,Japkowicz 和 Shah 最近有一本关于“评估学习算法:分类视角”的书,我还没有读过,但它看起来像是解决这类问题的有用参考。
我可以告诉你,甚至不用运行任何东西,这种差异在统计上将是非常显着的。它通过了 IOTT(眼间创伤测试 - 它在您的眼睛之间撞击)。
但是,如果您确实想进行测试,则可以将其作为两个比例的测试来进行-这可以通过两个样本的 t 检验来完成。
但是,您可能希望将“准确性”分解为其组成部分;敏感性和特异性,或假阳性和假阴性。在许多应用中,不同错误的代价是完全不同的。
由于在这种情况下准确度是正确分类的样本的比例,我们可以应用关于两个比例系统的假设检验。
让和分别是从分类器 1 和 2 获得的准确度,以及是样本数。在分类器 1 和 2 中正确分类的样本数为和分别。
检验统计量由下式给出
在哪里
我们的目的是证明分类器 2 的全局精度,即, 优于分类器 1,即. 这将我们的假设框架为
拒绝区域由下式给出
(如果真的拒绝并接受)
在哪里从与显着性水平相关的标准正态分布中获得,. 例如为 5% 的显着性水平。这意味着如果关系是真的,那么我们可以用 95% 的置信水平说 () 分类器 2 比分类器 1 更准确。
参考: