我一直在阅读许多深度学习论文。在其中一些中,当他们比较给定数据集中模型的预测结果时,我看到了术语统计显着性。
因此,假设您有两个分类器A和B. 您可以使用这些模型对包含 1000 个样本的数据集进行分类,并分别获得准确度和XforY和 for 。AB
当其中一个模型具有统计显着性时/不是更好/更差时,您能否举例说明?
我知道这个问题与零假设、p 值和相关主题有关。但是,我不知道如何将其与数据集和从数据集中预测标签的模型联系起来。
我一直在阅读许多深度学习论文。在其中一些中,当他们比较给定数据集中模型的预测结果时,我看到了术语统计显着性。
因此,假设您有两个分类器A和B. 您可以使用这些模型对包含 1000 个样本的数据集进行分类,并分别获得准确度和XforY和 for 。AB
当其中一个模型具有统计显着性时/不是更好/更差时,您能否举例说明?
我知道这个问题与零假设、p 值和相关主题有关。但是,我不知道如何将其与数据集和从数据集中预测标签的模型联系起来。
简而言之,使用的性能指标是从我们的测试集得出的统计数据。我们可以继续计算这些统计数据的置信区间,就像我们在经典环境中所做的那样。
例如,假设我们使用准确度(这不是分类的好指标),即在我们的测试集中正确分类的项目的比例。我们可以将此统计数据视为来自二项式分布,并询问其对应的二项式比例置信区间。假设我们有训练点,分类器正确分类个项目,而分类器正确分类个项目。对于分类器和I 类错误概率 ,威尔逊置信区间将为 对于。通常的假设检验表明和在准确度方面没有显着不同的性能。如果我们有并且分类器正确分类项目,而分类器正确分类个项目怎么办?分类器和的置信区间分别为和。这表明和在这个测试集上有不同的表现。
请注意,我只是使用参数近似来获得准确度的 CI。我强烈建议使用自举来获得感兴趣度量分布的非参数估计。然后,您可以使用配对样本假设检验。
我建议查看一些经典参考资料,例如:Dietterich的“用于比较监督分类学习算法的近似统计测试”或Demšar 的“多个数据集上的分类器的统计比较”以获取更多详细信息;他们明确研究了配对检验和 ANOVA 方法。我还发现 Derrac 等人的“关于使用非参数统计测试作为比较进化和群体智能算法的方法的实用教程”非常好遵循(并且比其标题所暗示的更普遍适用)。