我正在做一个简单的基于 AIC 的反向消除模型,其中一些变量是具有多个级别的分类变量。这些变量被建模为一组虚拟变量。在进行反向消除时,我应该一起删除变量的所有级别吗?或者我应该分别对待每个虚拟变量吗?为什么?
作为一个相关问题,R 中的 step 在进行反向消除时分别处理每个虚拟变量。如果我想一次删除整个分类变量,我可以使用 step 吗?或者是否有替代步骤可以处理这个问题?
我正在做一个简单的基于 AIC 的反向消除模型,其中一些变量是具有多个级别的分类变量。这些变量被建模为一组虚拟变量。在进行反向消除时,我应该一起删除变量的所有级别吗?或者我应该分别对待每个虚拟变量吗?为什么?
作为一个相关问题,R 中的 step 在进行反向消除时分别处理每个虚拟变量。如果我想一次删除整个分类变量,我可以使用 step 吗?或者是否有替代步骤可以处理这个问题?
我认为您必须删除整个分类变量。想象一个逻辑回归,您试图预测一个人是否患有疾病。出生国家/地区可能对此有重大影响,因此您将其包含在模型中。如果特定的美国原产地对AIC没有任何影响而你放弃了它,你将如何计算一个美国人?R 默认使用因子的参考对比,所以我认为它们只是在参考水平(比如博茨瓦纳)计算,如果有的话。这恐怕不会有好的结局……
更好的选择是事先对出生国家/地区的合理编码进行分类 - 分解为地区、大陆等,然后找出最适合您的模型的编码。
当然,有很多方法会误用逐步变量选择,因此请确保您使用正确。不过,这个网站上有很多相关内容;搜索“逐步”会带来一些好的结果。 这一点特别中肯,答案中有很多很好的建议。
至于国家的例子,我认为如果选择特定国家的虚拟变量,那么这意味着这个国家是与所有其他国家相结合的预测变量(无需创建新的二元变量)。我经常遇到的问题是虚拟变量,它反映了例如疾病的严重程度(例如 -、+、++、+++)。有时会选择 ++ 的虚拟变量,但不会选择 +++ 的虚拟变量。在这种情况下,重新分类可能有用。