机器算法验证 - 何时从回归模型中删除一个术语？ - 吾爱随笔录

何时从回归模型中删除一个术语？

机器算法验证回归模型选择

2022-01-20 04:32:20

任何人都可以建议以下是否有意义：

我正在处理一个具有 4 个预测变量的普通线性模型。我有两种想法是否放弃最不重要的术语。它的值略高于 0.05。我主张按照以下思路放弃它：将这个术语的估计值乘以（例如）这个变量的样本数据的四分位距，对保留这个术语对整个模型的临床效果有一定的意义. 由于这个数字非常低，大约等于变量在临床环境中测量时可以采用的典型日内值范围，我认为它没有临床意义，因此可以放弃以提供更简洁的模型，甚至尽管丢弃它会稍微 $p$ $R^2$

4个回答

我从来没有理解过节俭的愿望。寻求简约会破坏统计推断的所有方面（回归系数的偏差、标准误差、置信区间、P 值）。保留变量的一个很好的理由是这样可以保留置信区间和其他数量的准确性。可以这样想：在普通多元回归中，仅开发了两个无偏估计残差方差：（1）来自预先指定（大）模型的估计，以及（2）来自替代广义度的简化模型的估计表观（降低）回归自由度的自由度 (GDF)。GDF 将更接近候选参数的数量，而不是最终“重要”参数的数量。

这是另一种思考方式。假设您正在进行 ANOVA 来比较 5 种处理，得到 4 df F 检验。然后由于某种原因，您使用 t 检验查看处理之间的成对差异，并决定合并或删除一些处理（这与使用 P、AIC、BIC、Cp 对 4 个虚拟变量进行逐步选择相同）。由此产生的具有 1、2 或 3 df 的 F 检验将具有夸大的 I 类错误。具有 4 df 的原始 F 检验包含完美的多重性调整。

这些关于变量选择的答案都假设变量的观察成本为0。

这不是真的。

虽然给定模型的变量选择问题可能涉及也可能不涉及选择，但对未来行为的影响确实涉及选择。

考虑预测哪个大学前锋在 NFL 中表现最好的问题。你是侦察兵。您必须考虑 NFL 当前线卫的哪些素质最能预测他们的成功。您测量 500 个数量，并开始选择未来需要的数量的任务。

你该怎么办？您应该保留所有 500 个吗？是否应该消除某些（占星术，星期几）？

这是一个重要的问题，不是学术问题。观察数据是有成本的，成本效益框架表明未来不需要观察某些变量，因为它们的价值很低。

这些天来最常见的建议是获得这两种模型的 AIC，并选择 AIC 较低的那个。因此，如果您的完整模型的 AIC 为 -20，并且没有最弱预测变量的模型的 AIC > -20，那么您保留完整模型。有些人可能会争辩说，如果差异 < 3，您会保留较简单的差异。我更喜欢当 AIC 彼此相距在 3 以内时，您可以使用 BIC 打破“联系”的建议。

如果您使用的是 R，那么获取 AIC 的命令是AIC......

我确实有一本关于 90 年代初期建模的教科书，建议您放弃所有不重要的预测变量。但是，这实际上意味着您将独立于预测器在模型中增加或减少的复杂性。这也仅适用于方差分析，其意义在于解释的可变性，而不是根据其他已解释的情况来解释斜率的大小。使用 AIC 的更现代的建议考虑了这些因素。有各种各样的原因应该包括不重要的预测变量，即使它不重要。例如，可能存在与其他预测变量的相关性问题，因为它可能是一个相对简单的预测变量。如果您想要最简单的建议，请使用 AIC 并使用 BIC 打破平局并使用差 3 作为您的平等窗口。

保留变量至少有两个其他可能的原因：1）它影响其他变量的参数。2）它很小的事实本身在临床上很有趣

要查看大约 1，您可以查看模型中每个人的预测值，该模型中有和没有模型中的变量。我建议制作这两组值的散点图。如果没有大的差异，那么这就是反对这个原因的论据

对于 2，想想为什么你在可能的变量列表中有这个变量。是基于理论吗？其他研究是否发现了较大的效应量？

其它你可能感兴趣的问题

上一篇为了最大限度地提高正确猜测掷硬币结果的机会，我应该总是选择最可能的结果吗？下一篇Dice 系数和准确率一样吗？