恐怕相关问题没有回答我的问题。我们评估> 2个分类器(机器学习)的性能。我们的零假设是性能没有差异。我们执行参数 (ANOVA) 和非参数 (Friedman) 检验来评估这个假设。如果它们很重要,我们想找出在事后探索中哪些分类器不同。
我的问题是双重的:
1)是否有必要在多重比较测试后校正 p 值?“Alphafehler Kumulierung”上的德国维基百科网站表示,只有在对相同数据进行多个假设测试时才会出现问题。在比较分类器 (1,2),(1,3),(2,3) 时,数据仅部分重叠。是否仍然需要更正 p 值?
2) P 值校正通常在使用 t 检验的成对检验之后使用。在进行专门的事后测试时是否也有必要,例如 Nemenyi(非参数)或 Tukey 的 HSD 测试?这个答案对 Tukey 的 HSD 说“不”:Tukey HSD 测试是否对多重比较正确?. 是否有规则或者我必须为每个潜在的事后测试查找这个?
谢谢!