什么时候可以在模型构建过程中“窥视”结果变量?

机器算法验证 回归 诊断 回归策略
2022-04-13 13:13:47

我指的是 Frank Harrell 博士等人 1996 年在医学统计学中发表的以下评论:

除非使用正式的惩罚估计技术,否则必须消除因“窥视”结果变量而产生的多重比较问题;必须使用不利用结果变量的数据缩减方法。

我认为这意味着以下两个:

  1. 不应使用图形或非正式分析来指导分析。因此,不建议查看结果变量与协变量的图形图并使用结果来告知模型的选择。
  2. 不应仅仅因为这些变量的 p 值不显着而从模型中删除变量。

但是,我在 Harrell 博士的讲稿 ( http://biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/rms.pdf ) 的案例研究中看到的内容似乎表明我的理解是不正确的。尤其是,

  1. 他使用结果变量(生存与否)对一些变量进行了一些非参数回归估计。然后得出结论:“sibsp、parch 的变化不足以适应复杂的相互作用或非线性。” (p.260)这似乎与我的理解#1直接矛盾,或者这可能是从其他一些信息中得出的,而不是情节本身?我们可以从图形或其他非正式分析中安全地提取哪些信息,而不会引入偏见的风险?
  2. 在 p.262 上,在拟合了一个饱和模型后,他发表了“parch 显然微不足道,所以 drop”的评论。这似乎违背了我的理解#2。我在阅读中缺少什么?何时可以使用回归结果(或任何其他利用结果变量的数据缩减方法)来决定删除变量/简化?

非常感谢!

1个回答

我认为这里的部分问题是讲义太神秘了。最近发布的第二版 Harrell 博士的回归建模策略在第 292-300 页提供了有关泰坦尼克号生存分析的重要缺失细节。

对于问题 1,在不参考结果变量的情况下,查看图表、变量分布等来选择预测变量是没有问题的。这实际上是模型构建过程的一个重要部分,如果对于案例数量有太多的预测变量,正如本书第 4 章中广泛介绍的那样。本书第 292 页的以下引用阐明了此特定模型中的问题:

sibsp 和 parch 变量没有足够分散的分布来允许我们对它们进行非线性建模。此外,在性别 × pclass × 年龄层中这两个变量的非零值的乘客太少,无法让我们对涉及它们的复杂交互进行建模。这些变量的含义确实取决于乘客的年龄,因此我们只考虑涉及 sibsp 和 parch 的年龄交互

所以这里没有使用关于结果变量的信息。

对于问题 2,第 292 页的继续说:

在表 12.1 中,三向交互作用显然不显着(P = 0.4)。parch 也是如此(P = 0.6 用于测试 parch 的组合主效应 + 交互效应,即 parch 是否对任何年龄都很重要)。如果我们使用 α = 0.1 引导变量选择过程来保留术语,那么这些影响将在几乎所有引导重采样中被删除,因此我们可以放心地忽略这些术语以用于未来的步骤。

这就是专业判断和建模的预期目的发挥作用的地方。没有什么要求模型中包含所有可能的预测变量。预测模型的最佳性能支持包含未达到“统计意义”的变量。但如第 299 页所述:

永远不会有另一个泰坦尼克号,所以我们不需要验证模型的预期用途。

对于某些应用程序,在一定程度上减少预测变量的数量可能会有好处。请注意本书第 97 页中构建(而不是验证)“最终”模型的最后一步:

  1. 如果简约比准确性更重要,请进行有限的向后递减变量选择。进行任何激进的变量选择的代价是变量选择算法还必须包含在重新采样过程中,以正确验证模型或计算置信限等。

第 299-300 页包含有关验证的相关说明,因为parch之前删除了 3 向交互:

但是我们无论如何都使用引导程序来验证模型,以检测它是否过度拟合数据。我们不会因为检查了 parch 的影响或测试三向相互作用而惩罚随后的计算,因为我们相信这些测试会很好地复制。

如果这种类型的模型构建对您很重要,我建议您获取整本书的副本。