AIC 或 p 值:选择哪一个进行模型选择?

机器算法验证 模型选择 aic 逐步回归
2022-02-11 13:26:12

我对这个 R 东西很陌生,但不确定要选择哪种型号。

  1. 我做了一个逐步前向回归,根据最低 AIC 选择每个变量。我想出了 3 个模型,我不确定哪个是“最好的”。

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    我倾向于选择模型#3,因为它的 AIC 最低(我听说负数是可以的)并且 p 值仍然相当低。

    我运行了 8 个变量作为 Hatchling Mass 的预测变量,发现这三个变量是最好的预测变量。

  2. 我的下一个逐步前进选择模型 2,因为即使 AIC 稍大,p 值也都更小。你同意这是最好的吗?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

谢谢!

3个回答

查看单个 p 值可能会产生误导。如果您有共线的变量(具有高相关性),您将获得较大的 p 值。这并不意味着变量是无用的。

作为一个快速的经验法则,使用 AIC 标准选择模型比查看 p 值更好。

可能不选择具有最低 AIC 的模型的原因之一是当您的变量与数据点的比率很大时。

请注意,模型选择和预测准确性是有些不同的问题。如果您的目标是获得准确的预测,我建议通过将您的数据分离到训练和测试集中来交叉验证您的模型。

关于变量选择的论文:用于变量选择的随机逐步集成

AIC 是一种拟合优度度量,有利于模型中较小的残差,但会因包含更多预测变量而受到惩罚,并有助于避免过度拟合。在您的第二组模型中,模型 1(具有最低 AIC 的模型)在用于数据集外的预测时可能表现最佳。为什么将 Var4 添加到模型 2 会导致 AIC 较低但 p 值较高的一个可能解释是 Var4 与 Var1、2 和 3 在某种程度上相关。因此模型 2 的解释更容易。

AIC 的动机是对泛化误差的估计(如 Mallow 的 CP、BIC、...)。如果您想要模型进行预测,最好使用这些标准之一。如果您希望您的模型能够解释现象,请使用 p 值。

另外,请参见此处