在逻辑回归中选择或不选择变量

机器算法验证 物流 特征选择 预言 回归策略
2022-04-02 19:59:13

我正在尝试寻找结果的预测因子。我被教导进行单变量分析并将重要变量放入多变量逻辑回归模型中。然后我根据p值> 0.05一一去除变量,得到最终模型。

我从一些论文中看到还有另一种方法。基本上,他们不会从多元模型中删除任何变量,而是针对所有人进行调整。

第一种方法可能不会针对某些潜在的混杂因素进行调整,但您会得到一个变量较少的模型,所有这些都很重要。第二种方法适用于所有人,这可能是一个很长的列表。这两种方法之间是否还有其他重要的优点或缺点需要注意?

1个回答

基于某些 p 值或某些 AIC 截止值(在多变量模型中通过某种逐步或其他选择,或通过查看大量单变量模型)天真地选择模型项的方法会导致非常有问题的拟合,这些拟合可能适合特定的数据集很好,但否则将无用。以这种方式构建的模型往往会错误地将变量识别为不相关的变量(而不识别真正相关的变量——如果我们假设所使用的模型是对自然的某种合理近似,其中一些变量是相关的,而有些则不相关)并且具有对新数据集的预测性能较差。尽管如此,这种方法仍然经常使用,甚至偶尔可以在一些备受推崇的期刊上发表此类工作,但在统计界却完全名誉扫地。