向模型添加新变量

数据挖掘 回归 特征选择 逻辑回归 模型选择
2021-09-18 00:13:28

假设我已经有一个具有 N 个解释变量的逻辑回归模型(或其他模型)并且准确率为 70%。现在,如果还有其他可用的变量,我将如何测试新变量是否会在不建立新模型的情况下提高我的准确性。

2个回答

我认为如果不将变量添加到模型中,您就无法估计变量的影响。这是因为变量对模型判别力的影响取决于

  1. 结果变量和新变量之间的关联强度
  2. 新变量是否与某些旧变量共线

原则上,您可以估计关联强度和共线性,但这可能是不好的做法,并且会导致过度拟合。

同样,总的来说,我认为最好不要使用准确性来评估逻辑回归(参见参考文献),而是使用像 Brier 分数这样的适当评分规则。

此外,在比较两个嵌套模型时(即一个模型包含另一个模型的变量子集),我认为最佳实践是比较 AIC 或 BIC,或执行似然比检验。

要考虑的另一件事是,如果您无法重新拟合完整模型,但能够访问其拟合值(即分数或概率值),您可以尝试使用拟合值和新变量建立一个新的逻辑回归模型作为相同响应变量的协变量。通过这种方式,您将看到所有新提供的信息是否已经被现有模型捕获,或者新的协变量是否会进一步增加样本准确性。