机器算法验证 - 如何交叉验证逐步逻辑回归？ - 吾爱随笔录

如何交叉验证逐步逻辑回归？

机器算法验证物流交叉验证特征选择

2022-03-08 11:03:16

我有一个概念问题，了解如何交叉验证逐步逻辑回归。每次划分训练集时，很可能会根据 penter 和 premove 标准选择不同的特征。我应该每次都使用不同的选择模型进行交叉验证，还是应该找到一个基本事实并继续进行交叉验证？我认为后者听起来更合理，但我担心在某个地方我会损害测试失明。帮助表示赞赏。

2个回答

统计学习的要素非常清楚地给出了答案（第二版，第 246 页）：

通常，对于多步建模过程，交叉验证必须应用于整个建模步骤序列。特别是，在应用任何选择或过滤步骤之前，必须“排除”样本。有一个条件：可以在样本被遗漏之前完成初始的无监督筛选步骤。

在这种类型的分析中，问题在于从您的样本中推断出的“基本事实”可能不代表总体中的“基本事实”。交叉验证可以帮助将结果推广到总体，但前提是对每个验证折叠都重复建模过程的所有步骤。

正如我和@user777 所建议的那样，如果您使用逐步选择以外的方法来处理相关的预测变量，您可能会做得更好。对于高度相关的预测变量，逐步选择几乎肯定会导致对预测变量的选择从折叠到折叠高度不同。正则化方法可以更好地处理相关预测变量。例如，岭回归本质上是一种主成分回归，其成分具有权重，因此高度相关的变量往往会一起出现在相同的成分中。

1970 年代打来电话。它希望恢复其过时、破旧的逐步回归。

1990 年代打来电话。它希望您使用在统计学习要素中提倡的特别启发式方法，包括套索！！！！，正如 EdM 的回答中所引用的那样。

新千年来了。它告诉您忘记所有那些临时的废话，并采用系统的混合整数优化方法来选择最佳子集。这是要走的路，宝贝。“通过现代优化镜头进行最佳子集选择”，Bertsimas，King，Mazumder。它将把统计学习要素的建议从水中吹走。当然，目前可能还没有罐装的 R 包可供使用。

文章的最终版本后来发表在 The Annals of Statistics (Open Access)上。

其它你可能感兴趣的问题

上一篇具有对数转换数据的线性回归 - 大错误下一篇查找分布并转换为正态分布