逐步逻辑回归和抽样

机器算法验证 物流 spss 逐步回归
2022-03-09 00:19:08

我正在对 SPSS 中的一组数据进行逐步逻辑回归。在这个过程中,我将我的模型拟合到一个大约为随机的子集。占总样本的 60%,即约 330 例。

我发现有趣的是,每次我重新采样数据时,都会在最终模型中出现不同的变量。一些预测变量总是存在于最终模型中,但其他预测变量会根据样本进出。

我的问题是这个。处理这个问题的最佳方法是什么?我希望看到预测变量的收敛,但事实并非如此。从操作的角度来看,一些模型更直观(并且更容易向决策者解释),而另一些模型则更适合数据。

简而言之,由于变量不断变化,您建议如何处理我的情况?

提前谢谢了。

4个回答

如果您要使用逐步过程,请不要重新采样。一劳永逸地创建一个随机子样本。对其进行分析。根据保留的数据验证结果。大多数“重要”变量可能会变得不重要。

编辑 12/2015:您确实可以通过重新采样、重复逐步过程和重新验证来超越这种简单的方法:这将引导您进入交叉验证的形式。但在这种情况下,更复杂的变量方法选择,例如岭回归、套索和弹性网络可能比逐步回归更可取。)

关注有意义的变量,而不是那些更适合数据的变量。如果您对 330 条记录有多个变量,那么您一开始就有很大的过度拟合风险。考虑对逐步回归使用相当严格的进入和离开标准。基于 AIC 或检验或检验的阈值CpFt

(我假设您已经进行了分析和探索以识别自变量的适当重新表达,您已经识别了可能的相互作用,并且您已经确定因变量的 logit 之间确实存在近似线性关系和回归量。如果没有,做这个必要的初步工作,然后才回到逐步回归。)

顺便说一句,请谨慎遵循我刚刚给出的一般建议:-)。您的方法应该取决于分析的目的(预测?外推?科学理解?决策?)以及数据的性质、变量的数量等。

一个重要的问题是“为什么你想要一个变量尽可能少的模型?”。如果您希望尽可能少的变量以最小化模型操作使用的数据收集成本,那么 whuber 和 mbq 给出的答案是一个很好的开始。

如果预测性能真的很重要,那么您最好不要进行任何特征选择,而是使用正则化逻辑回归(参见岭回归)。事实上,如果预测性能是最重要的,我会使用袋装正则化逻辑回归作为一种“腰带和大括号”策略,以避免过度拟合小型数据集。Millar 在他关于回归中的子集选择的书中在附录中给出了相当多的建议,我发现它对于具有大量特征但观察结果不多的问题是极好的建议。

如果理解数据很重要,那么用于理解数据的模型就不需要与用于进行预测的模型相同。在这种情况下,我会多次重新采样数据,并查看样本中所选变量的模式,以找出哪些变量提供信息(正如 mbq 所建议的,如果特征选择不稳定,单个样本将无法提供完整的图片),但我仍然会使用袋装正则化逻辑回归模型集合进行预测。

一般来说,特征选择有两个问题:

  • 最小最优,你寻找最小的变量集给你最小的错误
  • 所有相关的,您在其中寻找与问题相关的所有变量

预测变量选择的收敛是所有相关问题的一个领域,这非常困难,因此需要比逻辑回归、大量计算和非常仔细的处理更强大的工具。

但似乎你正在做第一个问题,所以你不应该担心这个。我通常可以支持 whuber 的回答,但我不同意您应该放弃重新采样的说法——这不是一种稳定特征选择的方法,但它将是一种模拟,用于估计耦合特征选择 + 训练的性能,因此会让您对自己的准确性有信心。

你可以看看 JR Statist 中 Meinshausen 和 Buhlmann的论文Stability Selection 。Soc B (2010) 72 第 4 部分,以及之后的讨论。他们考虑当您反复将一组数据点随机分成两半并在每一半中寻找特征时会发生什么。通过假设您在一半中看到的内容与您在匹配的另一半中看到的内容无关,您可以证明错误选择变量的预期数量的界限。