我有一个数据集,其中包含许多缺失的某些参数(NA 值)的观察结果。我一直在使用 AIC 进行模型选择。根据 AIC 分数,我将模型简化为形式
y = a*b + c
其中a,b和c是连续因变量,y是我的自变量。然而,在这个模型c中并不重要,如果我删除,c我现在可以使用来自原始数据的更多观察结果(许多缺失值都在c列中)。删除c参数并使用我找到的额外数据模型提高,AIC 分数也提高了。然而,此时我正在比较苹果和橙子。带有c参数的模型正在评估相同的数据集,但观测值减少了 30 个。
我的问题是:
这是
c从模型中删除的正当理由吗?我不认为是,但如果是,是否有参考?是否有一种有效的方法来比较可以访问不同数据量的模型之间的模型选择统计信息?不同数量的数据是由数据集中存在许多缺失值的事实驱动的。