什么叫多重测试?

机器算法验证 多重回归 多重比较
2022-03-15 15:20:48

在使用线性模型时,我可以想到不同“类型”的多重测试,例如:

  1. 多重推论,因为我们有几个因变量
  2. 多重推论,因为我们有几个自变量
  3. 不做任何测试就看数据。仅对可能产生显着 p.value 的比较运行测试。
  4. 对同一数据运行多个不同的测试。(尝试 LM,如果不显着,请尝试 GLM,如果仍然不显着,请尝试 beta 回归等)

维基百科说:

[...] 当一个人同时考虑一组统计推断或推断基于观察值选择的参数子集时,就会出现多重测试问题。

维基百科所说的第一部分是否包含我的前两点,而我用斜体字写的部分(在“或”之后)是否等同于我的第三点?我的第 4 点与我们所说的多重测试无关,这对吗?

如果我的问题太模糊,我可以这样改写:

何时会出现多次测试问题?您将如何对多次测试的可能事件进行分类(如果需要)?

2个回答

如果预先指定了检验的所有方面并且满足其假设,您可以安全地得出结论,零假设将在错误级别定义的频率下被错误地拒绝。如果您进行多个测试(一个“系列”测试),则这些测试中的每一个都是犯此错误的额外机会。

每个单独的测试可能仍具有其名义误差水平,但您在族中错误地拒绝至少一个零假设的概率会更高。如果您有理由首先设置错误级别,这是一个问题,因为发生至少一个错误的概率高于所述错误级别。这是对多重测试的关注的核心,它似乎适用于您描述的所有四种情况。

现在,如果测试是独立的并且所有零假设都是正确的,那么您知道在整个家庭中至少犯一个错误的概率是多少(顺便说一句,您还知道任何拒绝都必须是错误的)。如果它们不是独立的,或者某些零假设实际上不正确,则不仅实际的家庭错误水平高于名义水平,而且很难确切知道有多高(但是你可以对其进行限制;那是Bonferroni 调整背后的原因)。如果各种假设以某种方式相关,则可能会应用特定的解决方案(例如经典的“多重比较”技术、多变量测试、临床试验中的顺序程序),但即使它们不相关,问题仍然存在。

在收集数据时重复测试(也称为可选停止或“抽样到已成定局”)、尝试各种技术、分析各种子样本或因变量也会使您面临多个测试问题。这些情况并不总是一起讨论,但没有理由不应该这样做。测试相同假设或相关假设的不同技术(您的第 4 点)可能密切相关,并且可能不会像对完全不相关的样本进行多次测试那样增加家庭错误水平,但您仍在进行多次测试。

可能最微妙的问题是第 3 点。在这种情况下,您可以很好地运行单个统计测试。这怎么会导致多重测试问题?支持这一观点的一个论据是p值取决于假设复制上的检验统计量的分布。如果您要复制此实验,您将根据数据的“外观”每次执行不同的测试。该检验统计量的分布与您每次都盲目地检验相同的比较不同,因为它也受到先前对数据的非正式目视检查的影响。事实上,您在研究中隐含地考虑了许多可能的比较,即多重测试情况。

类似的推理也适用于第 4 点中描述的情况。它可能对应于也可能不对应于通常称为“多重测试问题”(is-this-really-所谓-X 问题的长期问题),但结果是相同:测试无法解释,因为它们可能远离标称错误水平。由于您建议根据早期测试的结果进行进一步的测试,但无论如何您都愿意运行多个测试,情况变得更加混乱。(请注意,这是基于您声称仅根据显着性做出决定的事实。根据残差或其他一些诊断来选择模型并且只进行一次显着性检验似乎是一种更好的方法。)

我对最后两点的推理尤其受到 Wagenmakers, E.-J. 的启发。(2007 年)。p值普遍问题的实用解决方案。心理公报和评论, 14 (5), 779-804。

您列表中的第 3 项和第 4 项似乎与控制错误率的问题最密切相关。我希望其他人会对第 1 项和第 2 项发表评论。我从来都不知道如何考虑对同一模型的回归系数进行多重测试。

即使您没有实际测试数据,而是直观地寻找可以测试的模式,您也会遇到错误率问题。量化它可能很难,但它就在那里。

本质是,您会偶然发现大多数数据集中的模式。困难的部分是证明它们是真实的(即存在于数据来源的人群中),而不是从人群中随机抽取的机会函数。如果您没有从数据中搜索模式,则更容易声称它们是真实的。

关注出版(或更普遍地关注变小)的科学家p-values) 不控制错误率并寻找可以围绕其构建故事的模式的人被认为是在利用机会。他们正在利用这样一个事实,即总是可以找到模式,无论是否随机波动。这可以有意识或无意识地发生。