您的第一种方法存在两个问题:多重检验以及对显着性和非显着性差异的解释。
首先,当您执行多个测试时,会增加总体错误率。如果您设置,您仍然会在 5% 的时间里拒绝原假设,因为它实际上是正确的(即当没有任何差异时)。但是,您在执行多个测试时至少拒绝一次原假设的概率更高,因为您每次运行测试时都要承担这 5% 的风险。只有三个测试,问题不是很严重,但如果您不关心控制错误级别,那么运行测试仍然没有多大意义。α=.05
解决此问题的一个快速方法是使用 Bonferroni 校正来调整错误级别。由于它基于一个非常普遍的概率不等式,因此测试是什么并不重要,您始终可以使用它,但您会失去力量。例如,在应用校正后,您的任何测试都可能不显着,您将返回第二种方法的结果。这将解决明显的不一致,但不会非常有用。一般来说,这种技术的主要问题是你没有使用你拥有的所有信息,而且修正通常过于保守。当您有多个组时,这是选择 ANOVA 方法的一个原因。
第二个问题是显着和非显着之间的差异本身不一定是显着的。如果您拒绝了模型 1 等于基线的原假设,而不是模型 2 与基线不同的单独假设,那么您仍然没有确定模型 1 与模型 2 不同。这是三个不同的问题。让我们看看这是怎么发生的:

现在,让我们假设基线和模型 1 之间的差异“几乎没有”显着,比如p = .04。测试基线和模型 2 之间差异的p值将略高于阈值,例如p = .06,因此不显着。但同时,模型 1 和模型 2 看起来非常相似,两者之间的差异也显然与 0 没有显着差异。
问题是统计测试的逻辑要求我们指定一个错误级别,但这个阈值并没有什么特别之处。我们只是比模型 2 的分数高于基线的证据少了一点,也许这个证据不足以在指定的错误水平上排除原假设。然而,这还不足以断定它与模型 1 不同。
忽略多重测试问题,您可以得出结论,您不知道模型 2 实际上是否比基线更好或更差,并且您当然不知道它是否比模型 1 更好或更差。直观地说,如果您的数据确实看起来像图表上的数据,我觉得这不是很令人满意,因为这意味着根据比模型 2 实际上比基线更好的证据更薄的证据来区别对待模型 1 和模型 2。然而,这种思维方式与统计检验背后的逻辑大相径庭。因此,我宁愿看一些图表并对结果做出判断,而不是盲目地根据测试做出二元决策。
无论哪种方式,您提供的结果表明您的模型实际上代表了对基线的改进,但您无法得出模型 1 比模型 2 更好的结论。这也是您可以从 ANOVA 得出的结论。如果您想了解更多信息,则需要仔细查看差异的大小,并可能收集更多数据/在更大的数据集上测试模型。
PS:所有这些都忽略了问题中没有提出的两个潜在的附加问题,即您的响应变量的性质(它是一个比例吗?)和独立性(所有模型都在相同的样本上测试吗?)取决于答案对于这些问题,ANOVA/T 检验可能无论如何都不是最佳选择(另请参阅上一个问题)。此外,如果您特别想将每个组与基线进行比较,您还可以通过使用对比在 ANOVA 框架中实现这一点。您将拥有比事后成对测试更强大的理论上合理的方法,但仍然无法解决“哪个是最好的”问题。