基于完整(全局)回归模型的推理是否合适?

机器算法验证 回归 广义线性模型 模型选择 推理 解释模型
2022-03-27 08:10:07

基于完整模型的推理是否合适,如果合适,在什么情况下?

假设您对响应变量和几个候选预测变量之间的潜在关系感兴趣,并使用某种形式的回归(例如广义线性模型)来回答这个问题。推断哪些预测变量“重要”或与响应具有明显真实关系的一种方法是基于信息论标准(例如 AIC)的模型比较。即使最终模型中未保留的变量可能与响应有某种关系,但考虑到模型中保留的其他预测变量,它们基本上没有提供额外的实质性信息。

有没有一种情况更适合简单地拟合一个完整的(全局)模型(包含所有候选预测变量),停在那里,并仅根据 t 统计量(或其他统计量)和 p 值对单个预测变量进行推断在这个完整的模型中,没有进一步的模型选择?

我遇到了一些建议(例如 Whittingham 等人。“为什么我们仍然在生态和行为中使用逐步建模?”(2006 年)这可能是一件明智的事情,尽管有潜在的缺点。作者说估计的参数是无偏见,但其他消息来源称这些估计和 p 值不可信,因为模型中的其他(“非重要”)变量可能会影响它们。

如果目的是了解潜在的生物学关系,哪种方法更合适?

1个回答

一切都取决于您的学习目标:

A)探索性研究:您的目标是筛选一些可能​​有趣的关系预测因子。您想根据这些探索性结果构建可测试的模型。没有推论(在零假设显着性检验意义上),或从研究中得出其他重要决定。该研究是一项试点,随后将进行另一项验证性/预先指定的研究。在这种情况下,模型选择程序(使用 AIC、BIC 或交叉验证技术)是您选择的方法。您引用的参考是正确的:在最终模型中为预测变量获得的 p 值将过于乐观:通过在模型选择中尝试许多不同的模型,您创建了一个多重比较问题 - “分叉路径的花园”. 传统的统计测试只会为您提供当前模型的 p 值,而不是控制这些多重比较。

B)确认性/“预先指定的”研究:在这种情况下,您最好测试一个模型——在进行研究之前预先指定的模型。如果您在研究开始之前有充分的理由相信您的所有预测变量都产生了影响,那么完整模型是一个自然的选择。如果您仅仅出于怀疑而包含了一些预测变量,那么您可能进行了一项探索性研究。

“不重要”的变量,即不能解释结果变量中太多差异的变量,只会在相对于样本量的预测变量过多(过度拟合)或预测变量非常高的情况下对您的数据产生过度影响相关(共线)。理想情况下,您可以通过进行探索性研究来避免这些情况。

检查过度拟合/不稳定模型问题的一种方法是探索一个“简化模型”,其中仅包含主模型中的“重要”项。重要的是,这种简化的模型分析应该被称为辅助解释的事后控制分析。结论应仅基于预先指定的模型。