如何交叉验证逐步逻辑回归?

机器算法验证 物流 交叉验证 特征选择
2022-03-08 11:03:16

我有一个概念问题,了解如何交叉验证逐步逻辑回归。每次划分训练集时,很可能会根据 penter 和 premove 标准选择不同的特征。我应该每次都使用不同的选择模型进行交叉验证,还是应该找到一个基本事实并继续进行交叉验证?我认为后者听起来更合理,但我担心在某个地方我会损害测试失明。帮助表示赞赏。

2个回答

统计学习的要素非常清楚地给出了答案(第二版,第 246 页):

通常,对于多步建模过程,交叉验证必须应用于整个建模步骤序列。特别是,在应用任何选择或过滤步骤之前,必须“排除”样本。有一个条件:可以在样本被遗漏之前完成初始的无监督筛选步骤。

在这种类型的分析中,问题在于从您的样本中推断出的“基本事实”可能不代表总体中的“基本事实”。交叉验证可以帮助将结果推广到总体,但前提是对每个验证折叠都重复建模过程的所有步骤。

正如我和@user777 所建议的那样,如果您使用逐步选择以外的方法来处理相关的预测变量,您可能会做得更好。对于高度相关的预测变量,逐步选择几乎肯定会导致对预测变量的选择从折叠到折叠高度不同。正则化方法可以更好地处理相关预测变量。例如,岭回归本质上是一种主成分回归,其成分具有权重,因此高度相关的变量往往会一起出现在相同的成分中。

1970 年代打来电话。它希望恢复其过时、破旧的逐步回归。

1990 年代打来电话。它希望您使用在统计学习要素中提倡的特别启发式方法,包括套索!!!!,正如 EdM 的回答中所引用的那样。

新千年来了。它告诉您忘记所有那些临时的废话,并采用系统的混合整数优化方法来选择最佳子集。这是要走的路,宝贝。“通过现代优化镜头进行最佳子集选择”,Bertsimas,King,Mazumder它将把统计学习要素的建议从水中吹走。当然,目前可能还没有罐装的 R 包可供使用。

文章的最终版本后来发表在 The Annals of Statistics (Open Access)上。