模型选择:我可以比较线性模型和泊松模型之间的计数数据模型的 AIC 吗?

机器算法验证 广义线性模型 模型选择 aic 咕噜咕噜
2022-03-24 14:09:03

我正在建模计数数据(带有偏移/曝光参数)。我的建模策略是使用泊松模型和负二项式回归模型。我比较了模型 AIC,我的情况约为 -760。我选择了具有最佳 AIC 的模型。最后,我对线性模型(具有高斯分布和恒等链接的 GLM)在与计数模型的比较中的表现感兴趣。线性模型显然不满足分布假设以及计数模型。然而,现在我发现 arround -150 的模型 AIC 表明更合适。

尽管没有满足基本的分布假设,我是否应该使用基于 AIC 的线性模型?AIC 是否具有可比性?

我使用 GLMM 函数进行拟合:http://glmmadmb.r-forge.r-project.org/(我的数据是聚类的)。

1个回答

您不能使用 AIC 等基于似然的统计数据来比较具有不同似然函数的模型 - 基础公式是不同的。在线性回归中,似然函数是正态密度函数,在泊松回归中是泊松函数。这将解释 AIC 中的差异可能比任何拟合差异更重要。

在您决定使用线性模型之前,您需要确保模型的残差是正态分布的(您可以通过查看结果变量的分布来代替它,但请记住它不一样) . 如果它们不是正态分布的,或者离眼睛足够近,那么您就不能使用正态回归模型进行任何假设检验。

假设它大致正常,我将采取两种广泛的方法来选择要报告的模型。

1) 预测结果。估计每个模型的预测结果并进行比较。线性模型是否具有更好的预测能力?您可能希望在交叉验证框架中执行此操作,您可以在其中根据部分数据“训练”您的模型,并将其余部分用于预测。

2) 对系数的直观解释。泊松系数可能很难理解——它们不是y数量的变化,而是成比例的变化。根据您的上下文,这可能或多或少有用。有时,如果您的模型可以更容易地被最终用户解释,那么牺牲拟合是值得的——例如,一些研究人员愿意避免 logit 和 probit 模型的复杂性,以便在线性概率模型中更容易解释系数,即使LPM有很多挫折。当你做出这些决定时,想想你的听众是谁,你的背景是什么,你的研究问题是什么等等。

编辑:我忘了添加这篇论文,它对一系列不同的计数模型进行了很好的比较,可能会有所帮助。