在许多情况下,您可能会训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的平均分类误差(即在双重嵌套交叉验证之后),有时也会给出分割误差的方差。然而,这本身并不足以说一个分类器明显优于另一个分类器。我已经看到了许多不同的方法——使用卡方检验、t 检验、方差分析和事后检验等。
应该使用什么方法来确定统计显着性?这个问题的基础是:我们应该对分类分数的分布做出什么假设?
在许多情况下,您可能会训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的平均分类误差(即在双重嵌套交叉验证之后),有时也会给出分割误差的方差。然而,这本身并不足以说一个分类器明显优于另一个分类器。我已经看到了许多不同的方法——使用卡方检验、t 检验、方差分析和事后检验等。
应该使用什么方法来确定统计显着性?这个问题的基础是:我们应该对分类分数的分布做出什么假设?
除了@jb. 的出色回答,让我补充一点,您可以在同一测试集上使用McNemar 的测试来确定一个分类器是否明显优于另一个分类器。这仅适用于分类问题(McNemar 的原始作品称之为“二分特征”),这意味着分类器要么正确要么错误,中间没有空格。
由于分类错误的分布是二元分布(要么有错误分类,要么没有)---我会说使用卡方是不明智的。
同样,仅比较在相同数据集上工作的分类器的效率是明智的——“没有免费午餐定理”指出所有模型在所有数据集上具有相同的平均效率,因此哪个模型看起来更好将仅取决于哪些数据集是选择训练他们http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization。
如果您在数据集 D 上比较模型 A 和 B 的效率,我认为平均效率 + 平均值足以做出选择。
此外,如果一个人有许多具有合理效率的模型(并且彼此线性独立),我宁愿建立集成模型,而不仅仅是选择最佳模型。
我推荐 Tom Dietterich 的论文,题为“Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms”。这是 CiteSeer 上的论文简介:http ://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 。摘要:“本文回顾了五种近似统计测试,用于确定一种学习算法在特定学习任务上是否优于另一种。这些测试通过实验进行比较,以确定它们在不存在差异时错误检测差异的概率(I 型错误) ). ... McNemar 的测试显示 I 类错误较低。..."