我以 10 倍交叉验证的方式在同一数据集上训练和测试了两个模型。我想表明一个模型比另一个模型至高无上。因此,我想展示更好的模型具有更高的测试准确度均值。在最佳实践中,我应该使用配对 t 检验、非配对 t 检验还是其他类型的检验?如果人们担心方差不等,我应该使用 Welch 检验吗?
对于模型选择/比较,我应该使用什么样的测试?
机器算法验证
假设检验
统计学意义
t检验
模型选择
2022-03-17 17:55:26
1个回答
算法应该在完全相同的训练/测试集上进行比较,因此配对测试是有意义的。
使用单个数据集来估计泛化性能的棘手问题是数据必须在多次运行中重复使用,这意味着训练集(有时是测试集,取决于过程)中存在重叠。这可能会产生错误的结果,因为它违反了常见统计检验的独立性假设,并可能导致低估方差。
为了比较两种算法在单个数据集上的泛化性能,具有 10 倍交叉验证的配对 t 检验可能会产生夸大的 1 型错误(即,您错误地检测到显着差异的频率比您应该的要高)。见这篇论文:
迪特里希(1998 年)。用于比较监督分类学习算法的近似统计测试
相反,他建议使用“5x2cv t 检验”(使用 5 次 2 折交叉验证的配对 t 检验)或“McNemar 检验”(如果计算资源更有限)。与带有 10 倍交叉验证的 t 检验不同,这两种方法都有可接受的 1 型错误。但是,它们具有更高的 2 类错误(意味着无法检测到真正差异的可能性更大)。
在本文中:
纳多和本吉奥 (2003)。泛化错误的推断
他们提出了“校正重采样 t 检验”,它根据训练/测试集之间的重叠来调整方差。与 5x2cv t 检验和 McNemar 检验相比,它具有适当的类型 1 错误和更大的统计功效(即更低的类型 2 错误)。
在本文中:
布卡特和弗兰克 (2004)。评估用于比较学习算法的显着性检验的可重复性
他们认为测试不仅应该具有可接受的 1 型错误和较低的 2 型错误,而且还应具有高可复制性(这意味着测试的结果不应强烈依赖于数据的特定随机分区)。他们发现 5x2cv t 检验的可复制性较低。校正后的重采样 t 检验具有更高的可复制性,他们提出了进一步提高它的修改。
本文考虑在多个数据集上比较多个算法的情况:
德姆萨尔 (2006)。多个数据集上分类器的统计比较
其它你可能感兴趣的问题