假设我们有协变量和一个二元结果变量. 其中一些协变量是具有多个级别的分类变量。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要包含在模型中的协变量?
你会做模特吗每个协变量分别使用简单的逻辑回归并选择具有显着关联的协变量?
假设我们有协变量和一个二元结果变量. 其中一些协变量是具有多个级别的分类变量。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要包含在模型中的协变量?
你会做模特吗每个协变量分别使用简单的逻辑回归并选择具有显着关联的协变量?
这可能不是一件好事。首先查看所有单个协变量,然后使用重要的协变量构建模型,这在逻辑上等同于自动搜索过程。虽然这种方法很直观,但从这个过程中得出的推论是无效的(例如,真实的 p 值与软件报告的不同)。初始协变量集的大小越大,问题就越严重。如果你还是这样做了(不幸的是,很多人都这样做了),你就不能认真对待生成的模型。相反,您必须运行一项全新的研究,收集独立样本并拟合之前的模型,以对其进行测试。然而,这需要大量的资源,而且,由于该过程存在缺陷,并且以前的模型可能很差,浪费大量资源。
更好的方法是评估对您有实质性兴趣的模型。然后使用惩罚模型灵活性的信息标准(例如 AIC)在这些模型中进行裁决。对于逻辑回归,AIC 为:
在哪里是该模型中包含的协变量的数量。您想要 AIC 值最小的模型,所有条件都相同。然而,事情并不总是那么简单。当几个模型的 AIC 值相似时要小心,即使一个模型可能是最低的。
我在这里包含了 AIC 的完整公式,因为不同的软件输出不同的信息。您可能必须仅根据可能性来计算它,或者您可能会得到最终的 AIC,或介于两者之间的任何东西。
有很多方法可以选择回归模型中的变量,有些不错,有些不好,有些很糟糕。人们可以简单地浏览 Sander Greenland 的出版物,其中许多涉及变量选择。
然而,一般来说,我有一些共同的“规则”:
您将如何选择“最佳”模型?
没有提供足够的信息来回答这个问题;如果您想了解对y的因果影响,您需要实施回归,以反映对混杂的了解。如果要进行预测,AIC 将是一种合理的方法。
这些方法不一样;上下文将确定选择变量的(许多)方式中的哪一种更合适/更不合适。