为什么使用 AIC 应用模型选择会给我的变量 p 值不显着

机器算法验证 模型选择 p 值 aic
2022-02-07 07:42:00

我有一些关于 AIC 的问题,希望你能帮助我。我根据我的数据的 AIC 应用了模型选择(向后或向前)。一些选定的变量最终的 p 值 > 0.05。我知道人们说我们应该根据 AIC 而不是 p 值来选择模型,所以 AIC 和 p 值似乎是两个不同的概念。有人能告诉我有什么区别吗?到目前为止我的理解是:

  1. 对于使用 AIC 的反向选择,假设我们有 3 个变量(var1、var2、var3)并且该模型的 AIC 是 AIC*。如果排除这三个变量中的任何一个变量最终不会得到明显低于 AIC* 的 AIC(就 df=1 的 ch 方分布而言),那么我们会说这三个变量是最终结果。

  2. 三变量模型中变量(例如 var1)的显着 p 值意味着该变量的标准化效应大小与 0 显着不同(根据 Wald 或 t 检验)。

这两种方法的根本区别是什么?如果在我的最佳模型(通过 AIC 获得)中有一些变量的 p 值不显着,我该如何解释它?

4个回答

AIC 及其变体更接近的变化,然后是每个回归量的 p 值。更准确地说,它们是对数似然的惩罚版本。R2

您不想使用卡方检验 AIC 的差异。您可以使用卡方检验对数似然的差异(如果模型是嵌套的)。对于 AIC,越低越好(无论如何,在它的大多数实现中)。无需进一步调整。

如果可能的话,您真的想避免使用自动模型选择方法。如果您必须使用一个,请尝试 LASSO 或 LAR。

事实上,使用 AIC 进行一次单个变量的逐步选择(至少渐近地)等同于使用 p 值的截止值约为 15.7% 的逐步选择。(这很容易显示 - 如果较大模型的 AIC 将对数似然降低的幅度超过额外参数 2 的惩罚,则该模型的 AIC 会更小;这对应于选择较大的模型,如果Wald 卡方小于的尾部面积超过 2 ...即 15.7%)χ12

因此,如果您将其与使用一些较小的 p 值截止值进行比较,这并不奇怪,有时它包括具有比该截止值更高的 p 值的变量。

请注意,p 值或 AIC 都不是为逐步模型选择而设计的,事实上,在逐步回归的第一步之后,两者的假设(但不同的假设)都被违反了。正如@PeterFlom 提到的,如果您觉得需要自动选择模型,LASSO 和/或 LAR 是更好的选择。这些方法将偶然较大的估计(逐步奖励机会)拉回 0,因此往往比逐步偏差更小(并且剩余的偏差往往更保守)。

AIC 的一个经常被忽视的大问题是 AIC 值差异的大小,看到“越低越好”并停在那里(自动程序只是强调这一点)是很常见的。如果您正在比较 2 个模型并且它们具有非常不同的 AIC 值,那么明显偏好具有较低 AIC 值的模型,但通常我们会有 2 个(或更多)具有彼此接近的 AIC 值的模型,在这种情况下仅使用具有最低 AIC 值的模型将错过有价值的信息(并且推断该模型中存在或不存在但在其他类似模型中不同的术语将毫无意义或更糟)。来自数据本身外部的信息(例如收集预测变量集的难度/昂贵程度)可能会使具有稍高 AIC 的模型更适合使用,而不会造成太大的质量损失。另一种方法是使用相似模型的加权平均值(这可能会导致与脊回归或套索等惩罚方法相似的最终预测,但导致模型的思考过程可能有助于理解)。

我对 AIC 的经验是,如果变量看起来不显着,但仍然出现在具有最小 AIC 的模型中,那么这些变量可能是混杂因素。

我建议你检查混淆。去除这些不显着的变量应该会使一些剩余估计系数的磁力改变 25% 以上。