比较具有不同数据量的模型之间的 AIC

机器算法验证 模型选择 aic 模型比较
2022-04-15 07:34:41

我有一个数据集,其中包含许多缺失的某些参数(NA 值)的观察结果。我一直在使用 AIC 进行模型选择。根据 AIC 分数,我将模型简化为形式

y = a*b + c

其中abc是连续因变量,y是我的自变量。然而,在这个模型c中并不重要,如果我删除,c我现在可以使用来自原始数据的更多观察结果(许多缺失值都在c列中)。删除c参数并使用我找到的额外数据模型R2提高,AIC 分数也提高了。然而,此时我正在比较苹果和橙子。带有c参数的模型正在评估相同的数据集,但观测值减少了 30 个。

我的问题是:

  1. 这是c从模型中删除的正当理由吗?我不认为是,但如果是,是否有参考?

  2. 是否有一种有效的方法来比较可以访问不同数据量的模型之间的模型选择统计信息?不同数量的数据是由数据集中存在许多缺失值的事实驱动的。

2个回答

AIC值的大小无关;数据点越多,它总是越大。AIC 用于比较基于完全相同数据的模型,其中重要的统计数据是 AIC 值之间的差异。因此,在您的情况下,如果您c从模型中删除然后针对完全相同的数据进行测试,您可以比较两者。如果您将更多数据点添加到您的y=ab模型,您无法再将其与y=ab+c模型。

添加到@Avraham,看看 AIC 的公式,这是一种直观的方式来了解为什么或多或少的数据点会改变 AIC,而不意味着模型更适合或更差:

2k2ln(L)

k是参数的数量,ln(L)是可能性。对数似然量值基于所有数据点的总和。因此,随着您拥有更多数据点,您的总和将会增加。