机器算法验证 - 检验分类结果显着性的正确方法是什么 - 吾爱随笔录

检验分类结果显着性的正确方法是什么

机器算法验证分类统计学意义

2022-01-28 17:30:29

在许多情况下，您可能会训练几个不同的分类器，或者使用几种不同的特征提取方法。在文献中，作者经常给出一组数据随机分割的平均分类误差（即在双重嵌套交叉验证之后），有时也会给出分割误差的方差。然而，这本身并不足以说一个分类器明显优于另一个分类器。我已经看到了许多不同的方法——使用卡方检验、t 检验、方差分析和事后检验等。

应该使用什么方法来确定统计显着性？这个问题的基础是：我们应该对分类分数的分布做出什么假设？

4个回答

除了@jb. 的出色回答，让我补充一点，您可以在同一测试集上使用McNemar 的测试来确定一个分类器是否明显优于另一个分类器。这仅适用于分类问题（McNemar 的原始作品称之为“二分特征”），这意味着分类器要么正确要么错误，中间没有空格。

由于分类错误的分布是二元分布（要么有错误分类，要么没有）---我会说使用卡方是不明智的。

同样，仅比较在相同数据集上工作的分类器的效率是明智的——“没有免费午餐定理”指出所有模型在所有数据集上具有相同的平均效率，因此哪个模型看起来更好将仅取决于哪些数据集是选择训练他们http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization。

如果您在数据集 D 上比较模型 A 和 B 的效率，我认为平均效率 + 平均值足以做出选择。

此外，如果一个人有许多具有合理效率的模型（并且彼此线性独立），我宁愿建立集成模型，而不仅仅是选择最佳模型。

我推荐 Tom Dietterich 的论文，题为“Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms”。这是 CiteSeer 上的论文简介：http ://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 。摘要：“本文回顾了五种近似统计测试，用于确定一种学习算法在特定学习任务上是否优于另一种。这些测试通过实验进行比较，以确定它们在不存在差异时错误检测差异的概率（I 型错误） ). ... McNemar 的测试显示 I 类错误较低。..."

恕我直言，分数分布与任何其他类型数据的分布之间应该没有任何区别。所以基本上你需要检查的是你的数据是否正常分布，请参见此处。此外，有很多很好的书籍可以彻底解决这个问题，请参见此处（简而言之：它们都测试两个分类器的结果是否显着不同..如果确实如此，它们可以组合成一个集成模型）

其它你可能感兴趣的问题

上一篇非中心卡方随机变量之和下一篇先验功率分析本质上是无用的吗？