模型选择:逻辑回归

机器算法验证 物流 回归策略
2022-03-01 03:39:16

假设我们有n协变量X1,,Xn和一个二元结果变量是的. 其中一些协变量是具有多个级别的分类变量。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要包含在模型中的协变量?

你会做模特吗是的每个协变量分别使用简单的逻辑回归并选择具有显着关联的协变量?

3个回答

这可能不是一件好事。首先查看所有单个协变量,然后使用重要的协变量构建模型,这在逻辑上等同于自动搜索过程。虽然这种方法很直观,但从这个过程中得出的推论是无效的(例如,真实的 p 值与软件报告的不同)。初始协变量集的大小越大,问题就越严重。如果你还是这样做了(不幸的是,很多人都这样做了),你就不能认真对待生成的模型。相反,您必须运行一项全新的研究,收集独立样本并拟合之前的模型,以对其进行测试。然而,这需要大量的资源,而且,由于该过程存在缺陷,并且以前的模型可能很差,浪费大量资源。

更好的方法是评估对您有实质性兴趣的模型。然后使用惩罚模型灵活性的信息标准(例如 AIC)在这些模型中进行裁决。对于逻辑回归,AIC 为:

一种一世C=-2×ln(可能性)+2ķ

在哪里ķ是该模型中包含的协变量的数量。您想要 AIC 值最小的模型,所有条件都相同。然而,事情并不总是那么简单。当几个模型的 AIC 值相似时要小心,即使一个模型可能是最低的。

我在这里包含了 AIC 的完整公式,因为不同的软件输出不同的信息。您可能必须仅根据可能性来计算它,或者您可能会得到最终的 AIC,或介于两者之间的任何东西。

很多方法可以选择回归模型中的变量,有些不错,有些不好,有些很糟糕。人们可以简单地浏览 Sander Greenland 的出版物,其中许多涉及变量选择。

然而,一般来说,我有一些共同的“规则”:

  • 自动化算法,比如软件包中的那些,可能是个坏主意。
  • 使用模型诊断技术,如 gung 建议的那样,是评估变量选择选择的好方法
  • 您还应该结合使用主题专业知识、文献检索器、有向无环图等来告知您的变量选择选择。

您将如何选择“最佳”模型?

没有提供足够的信息来回答这个问题;如果您想了解对y的因果影响,您需要实施回归,以反映对混杂的了解。如果要进行预测,AIC 将是一种合理的方法。

这些方法不一样;上下文将确定选择变量的(许多)方式中的哪一种更合适/更不合适。