机器算法验证 - 调整多重回归中的 p 值以进行多重比较是个好主意吗？ - 吾爱随笔录

调整多重回归中的 p 值以进行多重比较是个好主意吗？

机器算法验证回归多元分析预测模型多重回归多重比较

2022-02-09 04:51:56

假设您是一名社会科学研究人员/计量经济学家，试图找到服务需求的相关预测指标。您有 2 个结果/因变量来描述需求（使用服务是/否，以及次数）。您有 10 个预测变量/自变量可以从理论上解释需求（例如，年龄、性别、收入、价格、种族等）。运行两个单独的多元回归将产生 20 个系数估计及其 p 值。如果回归中有足够的自变量，您迟早会发现至少一个变量在因变量和自变量之间具有统计显着相关性。

我的问题：如果我想在回归中包含所有自变量，纠正多个测试的 p 值是个好主意吗？非常感谢任何对先前工作的引用。

4个回答

您的问题似乎更普遍地解决了识别良好预测因子的问题。在这种情况下，您应该考虑使用某种惩罚回归（处理变量或特征选择的方法也是相关的），例如 L1、L2（或它们的组合，即所谓的elasticnet）惩罚（查找相关问题此站点，或 R惩罚和弹性网络包等）。

现在，关于校正回归系数（或等效的偏相关系数）的 p 值以防止过度乐观（例如使用 Bonferroni 或更好的降压方法），这似乎只有在您考虑时才有意义一个模型并寻找那些贡献解释方差的重要部分的预测变量，也就是说，如果您不执行模型选择（使用逐步选择或分层测试）。这篇文章可能是一个好的开始：回归系数测试中的 Bonferroni 调整。请注意，此类更正不会保护您免受多重共线性问题的影响，这会影响报告的 p 值。

鉴于您的数据，我建议使用某种迭代模型选择技术。例如，在 R 中，该stepAIC函数允许通过精确 AIC 执行逐步模型选择。您还可以使用 boostrap（参见relaimpo包）根据它们对我认为报告效应大小度量或解释方差的百分比比 p 值更能提供信息，尤其是在验证模型中。 $R^2$

应该注意的是，逐步方法也有其缺点（例如，Wald 检验不适用于由逐步过程引起的条件假设），或者如 Frank Harrell 在R mailing上指出的那样，“基于 AIC 的逐步变量选择具有所有基于 P 值的逐步变量选择问题。AIC 只是 P 值的重述”（但如果已经定义了一组预测变量，AIC 仍然有用）；一个相关问题——变量在线性回归模型中是否显着？-- 提出了关于使用 AIC 进行变量选择的有趣评论（@Rob等）。我在最后附加了一些参考资料（包括@Stephan提供的论文）); P.Mean上还有很多其他参考资料。

Frank Harrell 撰写了一本关于回归建模策略的书，其中包括围绕这个问题的大量讨论和建议（第 4.3 节，第 56-60 页）。他还开发了高效的 R 例程来处理广义线性模型（参见设计或rms包）。所以，我认为你一定要看看它（他的讲义可以在他的主页上找到）。

参考

Whittingham, MJ, Stephens, P, Bradbury, RB 和 Freckleton, RP (2006)。为什么我们仍然在生态和行为中使用逐步建模？ 动物生态学杂志，75，1182-1189。
奥斯汀，PC（2008 年）。与后向变量消除相比，Bootstrap 模型选择在选择真实变量和噪声变量方面具有相似的性能：模拟研究。临床流行病学杂志，61（10），1009-1017。
Austin, PC 和 Tu, JV (2004)。逻辑回归的自动变量选择方法产生了预测急性心肌梗死死亡率的不稳定模型。临床流行病学杂志，57，1138-1146。
格陵兰，S (1994)。多重暴露流行病学分析的分层回归。环境健康展望，102（增刊 8），33-39。
格陵兰，S (2008)。一般流行病学中的多重比较和关联选择。国际流行病学杂志，37（3），430-434。
Beyene, J, Atenafu, EG, Hamid, JS, To, T, 和 Sung L (2009)。确定变量在开发和验证预测模型中的相对重要性。BMC 医学研究方法论，9，64。
Bursac, Z, Gauss, CH, Williams, DK 和 Hosmer, DW (2008)。有目的地选择逻辑回归中的变量。生物学和医学的源代码，3 , 17。
Brombin, C, Finos, L 和 Salmaso, L (2007)。在广义线性模型中调整逐步 p 值。多重比较程序国际会议。-- 参见step.adj()R someMTP包。
韦根，RE（2010）。使用多个逐步算法进行变量选择的性能。医学统计学，29（15），1647–1659。
Moons KG、Donders AR、Steyerberg EW 和 Harrell FE (2004)。惩罚最大似然估计来预测二元结果。临床流行病学杂志，57（12），1262-1270。
蒂布希拉尼，R (1996)。通过套索回归收缩和选择。皇家统计学会杂志 B，58（1），267–288。
Efron, B, Hastie, T, Johnstone, I 和 Tibshirani, R (2004)。最小角回归。统计年鉴，32（2），407-499。
Flom, PL 和 Cassell, DL (2007)。逐步停止：为什么逐步和类似的选择方法不好，以及应该使用什么。NESUG 2007 诉讼。
Shtatland, ES, Cain, E. 和 Barton, MB (2001)。逐步逻辑回归的危险以及如何使用信息标准和输出交付系统来逃避它们。SUGI 26 诉讼（第 222-226 页）。

在很大程度上，你可以做任何你喜欢的事情，只要你随机提供足够的数据来测试你根据保留的数据提出的任何模型。50% 的拆分可能是个好主意。是的，你失去了一些发现关系的能力，但你获得的却是巨大的；即，在您的作品发表之前复制您的作品的能力。无论您采用多么复杂的统计技术，您都会惊讶于有多少“重要”预测因子在应用于确认数据时完全无用。

还要记住，预测的“相关”不仅仅意味着低 p 值。毕竟，这仅意味着在此特定数据集中发现的关系可能不是偶然的。对于预测，实际上更重要的是找到对预测产生重大影响的变量（不要过度拟合模型）；也就是说，要找到可能是“真实”的变量，并且当在合理的值范围内变化时（不仅仅是样本中可能出现的值！），导致 predictand 明显变化。当您有保留数据来确认模型时，您可以更轻松地暂时保留可能不具有低 p 值的边缘“显着”变量。

由于这些原因（并以 chl 的好答案为基础），尽管我发现逐步模型、AIC 比较和 Bonferroni 校正非常有用（尤其是在有成百上千个可能的预测变量在起作用时），但这些不应该是决定哪些变量的唯一决定因素输入您的模型。也不要忽视理论提供的指导：如果变量不产生病态方程（例如，共线性），则通常应保留具有强大理论依据的变量，即使它们不重要，也应保留在模型中.

注意：在您确定模型并使用保留数据确认其有用性后，可以将保留数据与保留数据重新组合以进行最终估计。因此，就您可以估计模型系数的精度而言，没有任何损失。

我认为这是一个很好的问题；它触及了困扰从流行病学到计量经济学等领域的有争议的多重测试“问题”的核心。毕竟，我们怎么知道我们发现的意义是否虚假？我们的多变量模型有多真实？

在抵消发布噪声变量的可能性的技术方法方面，我非常同意“whuber”的观点，即使用您的样本的一部分作为训练数据，其余的作为测试数据是一个好主意。这是一种在技术文献中得到讨论的方法，所以如果您花时间，您可能会找到一些关于何时以及如何使用它的好指南。

但是为了更直接地打击多重测试的哲学，我建议你阅读我在下面引用的文章，其中一些支持多重测试的调整通常是有害的（成本权力），不必要的，甚至可能是逻辑谬误的立场. 我个人不会自动接受这样一种说法，即我们调查一种潜在预测因素的能力会因调查另一种预测因素而无情地降低。随着我们在给定模型中包含更多预测变量，家庭方面的1 类错误率可能会增加，但只要我们不超出样本量的限制，每个人的 1 类错误的概率预测器是常数；并且控制家庭错误并不能说明哪个特定变量是噪声，哪个不是。当然，也有有力的反驳。

因此，只要您将潜在变量列表限制在那些看似合理的变量（即，已知通往结果的途径），那么虚假风险就已经得到了很好的处理。

但是，我要补充一点，预测模型不像因果模型那样关注其预测变量的“真值”。模型中可能存在很多混淆，但只要我们解释了很大程度的方差，我们就不会太在意。至少在某种意义上，这使工作更容易。

干杯，

布伦登，生物统计顾问

PS：您可能希望对您描述的数据进行零膨胀泊松回归，而不是两个单独的回归。

Perneger, TV Bonferroni 调整出了什么问题。英国医学杂志1998；316 : 1236
Cook, RJ & Farewell, VT临床试验设计和分析中的多重性考虑。皇家统计学会杂志，A 系列，1996 年；卷。159，第 1 号：93-110
Rothman, KJ多重比较不需要调整。流行病学1990；卷。1、1号：43-46
Marshall, JR数据疏浚和值得注意。流行病学1990；卷。1、1号：5-7
Greenland, S. & Robins, JM Empirical-Bayes 对多重比较的调整有时很有用。流行病学1991；卷。2、4号：244-251

这里有很好的答案。让我补充几个我在其他地方看不到的小点。

首先，您的响应变量的性质是什么？更具体地说，它们是否被理解为彼此相关？如果两个模型的残差被理解为独立（理论上）/如果两个模型的残差是独立的（经验上），则只应进行两个单独的多重回归。否则，您应该考虑多元回归。（“多变量”表示 >1 个响应变量；“多个”表示 >1 个预测变量。）

要记住的另一件事是该模型带有全局 $F$ 测试，这是对所有预测变量的同时测试。全局测试可能是“不显着的”，而一些单独的预测变量似乎是“显着的”。如果它发生，那应该让你暂停。另一方面，如果全局测试表明至少有一些预测变量是相关的，那么这可以为您提供一些避免多重比较问题的保护（即，它表明并非所有空值都是正确的）。

其它你可能感兴趣的问题

上一篇对偏差-方差权衡的直观解释？下一篇线性回归模型中的“恒定方差”是什么意思？