机器算法验证 - 模型选择：逻辑回归 - 吾爱随笔录

模型选择：逻辑回归

机器算法验证物流回归策略

2022-03-01 03:39:16

假设我们有 $n$ 协变量 $x_1, \dots, x_n$ 和一个二元结果变量 $y$ . 其中一些协变量是具有多个级别的分类变量。其他是连续的。您将如何选择“最佳”模型？换句话说，您如何选择要包含在模型中的协变量？

你会做模特吗 $y$ 每个协变量分别使用简单的逻辑回归并选择具有显着关联的协变量？

3个回答

这可能不是一件好事。首先查看所有单个协变量，然后使用重要的协变量构建模型，这在逻辑上等同于自动搜索过程。虽然这种方法很直观，但从这个过程中得出的推论是无效的（例如，真实的 p 值与软件报告的不同）。初始协变量集的大小越大，问题就越严重。如果你还是这样做了（不幸的是，很多人都这样做了），你就不能认真对待生成的模型。相反，您必须运行一项全新的研究，收集独立样本并拟合之前的模型，以对其进行测试。然而，这需要大量的资源，而且，由于该过程存在缺陷，并且以前的模型可能很差，浪费大量资源。

更好的方法是评估对您有实质性兴趣的模型。然后使用惩罚模型灵活性的信息标准（例如 AIC）在这些模型中进行裁决。对于逻辑回归，AIC 为：

一种 一世 C = - 2 \times \ln (可能性) + 2 ķ

$AIC = -2\times\ln(\text{likelihood}) + 2k$

在哪里 $k$ 是该模型中包含的协变量的数量。您想要 AIC 值最小的模型，所有条件都相同。然而，事情并不总是那么简单。当几个模型的 AIC 值相似时要小心，即使一个模型可能是最低的。

我在这里包含了 AIC 的完整公式，因为不同的软件输出不同的信息。您可能必须仅根据可能性来计算它，或者您可能会得到最终的 AIC，或介于两者之间的任何东西。

有很多方法可以选择回归模型中的变量，有些不错，有些不好，有些很糟糕。人们可以简单地浏览 Sander Greenland 的出版物，其中许多涉及变量选择。

然而，一般来说，我有一些共同的“规则”：

自动化算法，比如软件包中的那些，可能是个坏主意。
使用模型诊断技术，如 gung 建议的那样，是评估变量选择选择的好方法
您还应该结合使用主题专业知识、文献检索器、有向无环图等来告知您的变量选择选择。

您将如何选择“最佳”模型？

没有提供足够的信息来回答这个问题；如果您想了解对y的因果影响，您需要实施回归，以反映对混杂的了解。如果要进行预测，AIC 将是一种合理的方法。

这些方法不一样；上下文将确定选择变量的（许多）方式中的哪一种更合适/更不合适。

其它你可能感兴趣的问题

上一篇“样本内”和“伪样本外”预测之间的差异下一篇具有更大方差的预测器“更好”吗？